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译 者 序 


Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 ， 它 可 以 使 用 户 在 不 了 
解 分 布 式 底层 细节 的 情况 下 开发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 高 速 运算 和 存储 。 
Hadoop 解决 了 两 大 问题 : 大 数据 存储 和 大 数据 分 析 ， 也 就 是 Hadoop 的 两 大 核心 内 容 : 
HDFS 和 MapReduce。 目 前 ，Hadoop 已 经 成 为 业界 大 数据 平台 的 首选 方案 之 一 ，Hadoop 
人 才 的 需求 量 也 是 越 来 越 大 

本 书 旨 在 令 读者 具备 Hadoop 3 生态 系统 的 分 析 能 力 , 并 能 够 构建 强大 的 解决 方案 来 执 
行 大 数 据 分 析 , 同时 毫 不 费力 地 从 大 数据 分 析 结 果 中 获得 敏锐 的 洞察 力 。 本 书 涉及 及 语言 、 
Python 语言 、Spark、Flink、Hadoop 的 综合 运用 ， 同 时 实现 了 大 数据 分 析 的 可 视 化 结果 。 

在 本 书 的 翻译 过 程 中 ， 除 李 考 外 ， 王 辉 、 刘 璋 、 刘 晓 雪 、 张 博 、 刘 福 、 张 华 至 等 人 也 
参与 了 部 分 翻译 工作 ， 在 此 一 并 表示 感谢 。 
由 于 译 者 水 平 有 限 ， 难 免 有 玻 漏 和 不 妥 之 处 ， 奶 请 广大 读者 批评 指正 。 
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Apache Hadoop 是 一 类 流行 的 大 数据 处 理 平台 ， 并 可 与 大 多 数 大 数据 工具 集成 ， 以 构 
建功 能 强大 的 数据 分 析 方 案 。 本 书 将 围绕 这 一 点 对 相关 软件 展开 讨论 ， 同 时 辅 以 大 量 的 操 
作 实 例 。 

在 本 书 阅读 过 程 中 ， 读 者 将 会 系统 学 习 HDFS、MapReduce、YARN 方面 的 知识 ， 以 
及 如 何 实现 快速 、 高 效 的 大 数据 处 理 方案 。 此 外 ， 本 书 还 将 Hadoop 与 其 他 开源 工具 集成 ， 
例如 Python 和 R 语言 ， 进 而 分 析 和 可 视 化 数据 ， 同 时 针对 大 数据 进行 统计 计算 。 一 旦 读 
者 掌握 了 这 些 内 容 , 即 可 尝试 在 Apache Spark 和 Apache Flink 的 基础 上 应 用 Hadoop, 最 终 
实现 实时 数据 分 析 和 流 式 处 理 。 除 此 之 外 ， 本 书 还 将 讨论 如 何在 云端 和 端 到 端 管道 上 利用 
Hadoop 构建 数据 分 析 方 案 ， 并 通过 操作 实例 执行 大 数据 分 析 任 务 。 

在 阅读 完 本 书后 ， 读 者 将 具备 基于 Hadoop 生态 系统 的 分 析 能 力 ， 同 时 可 构建 强大 的 
解决 方案 执行 大 数据 分 析 ， 并 拥有 自己 的 技术 观点 。 


适用 读者 


如 果 读 者 希望 使 用 Hadoop 3 的 强大 功能 为 企业 或 业务 构建 高 性 能 的 分 析 解 决 方案 , 或 
者 您 是 一 名 大 数据 分 析 新 手 ， 那 么 本 书 将 十 分 适合 于 您 。 另 外 ， 本 书 需要 读者 具备 Java 编 
程 方 面 的 基础 知识 。 


本 书 内 容 


第 1 章 将 介绍 Hadoop 环境 及 其 核心 组 件 ， 包 括 HDFS 和 MapReduce。 

第 2 章 将 讨论 大 型 数据 集 的 检测 处 理 过 程 ， 从 中 发 现 数据 的 模式 ， 生 成 相应 的 报告 并 
采集 有 价值 的 内 容 。 

第 3 章 将 讨论 MapReduce， 这 也 是 大 多 数 计算 /处 理 系 统 中 的 基本 概念 。 

第 4 章 探 讨 Python 语言 ， 并 在 此 基础 上 通过 Hadoop 对 大 数据 进行 分 析 。 
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第 5 章 介绍 了 及 语言 ， 同 时 阐述 了 如 何 使 用 了 语言 并 借助 于 Hadoop 执行 大 数据 统计 
计算 。 
第 6 章 将 考查 Apache Spark， 同 时 根据 批 处 理 模型 使 用 Spark 进行 大 数据 分 析 。 
第 7 章 将 对 Apache Spark 的 流 式 处 理 模型 进行 分 析 ， 以 及 如 何 打造 基于 流 式 的 实时 分 
析 应 用 程序 。 
第 8 章 主要 介绍 Apache Flink， 及 其 基于 批 处 理 模型 的 、 针 对 大 数据 分 析 的 应 用 方式 。 
第 9 章 讨论 DataStream API 和 基于 Flink 的 流 处 理 。 其 中 ，Flink 用 于 接收 和 处 理 实时 
HEN JE Hadoop 集群 中 存储 聚合 和 结果 。 
第 10 章 考查 数据 可 视 化 问题 ， 并 通过 各 种 工具 和 技术 实现 这 一 功能 ， 例 如 Tableau. 
第 11 章 讲述 云 计算 以 及 各 种 概念 ， 例 如 Kaas, Paas 和 SaaS。 除 此 之 外 ， 本 章 还 将 对 
云 供应 商 加 以 简要 介绍 。 
第 12 章 介绍 AWS 和 AWS 中 的 各 种 服务 ， 这 些 服务 使 用 Elastic MapReduce (EMR ) 
在 AWS 云 中 建立 Hadoop 集群 ， 这 对 执行 大 数据 分 析 非 常 有 用 。 


jlin} 


软件 和 硬件 环境 


本 书 示例 是 在 64 位 Linux 上 使 用 Scala、Java、R 和 Python 语言 实现 的 。 另 外 ， 还 应 
在 机 器 上 安装 下 列 内 容 〈 建 议 使 用 最 新 版 本 ) : 
Spark 2.3.0 (或 更 高 版 本 ) 。 
Hadoop 3.1 ( 或 更 高 版本 ) 。 
Flink 1.4. 
Java (JDK 和 JRE) 1.8+。 
Scala 2.11.x ( 或 更 高 版 本 ) 。 
Python 2.7+/3.4+。 
R 3.1+ 和 RStudio 1.0.143 。 
ロロ Eclipse Mars 或 Idea Intelli) (最新 版本 ) 。 
关于 操作 系统 , 最 好 使 用 Linux 发 行 版 (包括 Debian, Ubuntu, Fedora, RHEL 和 CentOS) 。 
具体 来 说 ， 例 如 ， 对 于 Ubuntu， 建 议 使 用 完整 的 14.04 (LTS) 64 位 安 装 、 VMWare player 12 
BK Virtual box。 此 外 ， 还 可 在 Windows (XP/7/8/10) 或 者 macOS X (10.4.72) 上 运行 代码 。 
关于 硬件 配置 ， 可 采用 Corei3. Core i5 GEH) —Corei7 〈 获 得 最 佳 效 果 ) 。 然 而 ， 
多 核 处 理 将 提供 更 快 的 数据 处 理 以 及 较 好 的 可 伸缩 性 。 另 外 ， 对 于 单 系统 模式 ， 至 少 使 用 


ロロ ロロ ロロ ロ 
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hd 
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8GB RAM (推荐 ) ; 单个 VM 至 少 使用 32GB RAM; 对 于 集群 ， 则 至 少 使 用 32GB RAM. 
足够 的 存储 空间 可 运行 繁重 的 任务 (取决 于 将 要 处 理 的 数据 集 大 小 ) ， 最 好 至 少 包含 50GB 
的 空闲 磁盘 存储 空间 (用 于 独立 系统 和 SQL 仓库 ) 。 


资源 下 载 


读者 可 访问 http://www.packtpub.com 并 通过 个 人 账户 下 载 示例 代码 文件 。 另 外 ， 
http:/www.packtpub.com/support， 注 册 成 功 后 ， 我 们 将 以 电子 邮件 的 方式 将 相关 文件 发 与 
读者 。 
读者 可 根据 下 列 步 又 下 载 代 码 文件 : 
(1) 登录 www.packtpub.com 并 注册 我 们 的 网 站 。 
(2) 选择 SUPPORT 选项 卡 。 
(3) 单 击 Code Downloads & Errata。 
(4) 在 Search 文本 框 中 输入 书 名 并 执行 后 续 命令 。 
当 文 件 下 载 完 毕 后 ， 确 保 使 用 下 列 最 新 版 本 软件 解压 文件 夹 : 
口 Windows 系统 下 的 WinRAR/7-Zip。 
口 Mac 系统 下 的 Zipeg/iZip/UnRarX。 
Q Linux 系统 下 的 7-Zip/PeaZip. 
另外 ， 读 者 还 可 访问 GitHub 获取 本 书 的 代码 包 ， 对 应 网 址 为 https://github.com/ 
PacktPublishing/Big-Data-Analytics-with-Hadoop-3. 。 代 码 与 GitHub 存储 库 将 实现 同步 更 新 。 
此 外 ， 读 者 还 可 访问 https://github.com/PacktPublishing/ 以 了 解 丰富 的 代码 和 视频 资源 。 
除 此 之 外 ， 我 们 还 提供 了 PDF 文件 ， 其 中 包含 了 本 书 所 用 截图 /图 表 的 彩色 图 像 。 读 
者 访问 http://www.packtpub.com/sites/default/files/downloads/BigDataAnalyticswithHadoop3_ 


ColorImages.pdf 进行 下 载 。 


本 书 约定 


代码 块 则 通过 下 列 方式 设置 : 


hdfs dfs -copyFromLocal temperatures.csv /user/normal 
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代码 中 的 重点 内 容 则 采用 黑体 表示 : 


Map-Reduce Framework -- output average temperature per city name 
Map input records-35 
Map output records-33 
Map output bytes-208 
Map output materialized bytes-286 


命令 行 输入 或 输出 如 下 所 示 : 


$ ssh-keygen -t rsa -P '' -f ~/.ssh/id rsa 

$ cat ~/.ssh/id_rsa.pub >> -/.ssh/authorized keys 
$ chmod 0600 -/.ssh/authorized keys 

人 图标 表 示 较为 重要 的 说 明 事 项 。 

全 图标 则 表示 提示 信息 和 操作 技巧 。 


读者 反馈 和 客户 支持 


欢迎 读者 对 本 书 的 建议 或 意见 予以 反馈 。 
对 此 ， 读 者 可 向 feedback@packtpub.com 发 送 邮件 ， 并 以 书 名 作为 邮件 标题 。 若 读者 
对 本 书 有 任何 疑问 ， 均 可 发 送 邮 件 至 questions@packtpub.com， 我 们 将 竭诚 为 您 服务 。 


勘误 表 
尽管 我 们 在 最 大 程度 上 做 到 尽善尽美 , 但 错误 依然 在 所 难免 。 如 果 读 者 发 现 廖 误 之 处 ， 
无 论 是 文字 错误 抑或 是 代码 错误 ， 还 望 不 音 赐教 。 对 此 ， 读 者 可 访问 http://www.packtpub. 


com/submit-errata， 选 取 对 应 书籍 ， 单 击 Errata Submission Form 超 链接 ， 并 输入 相关 问题 
的 详细 内 容 。 


版 权 须知 


HUR, 互联 网 上 的 版 权 问题 从 未 间断 ，Packt 出 版 社 对 此 类 问题 异常 重视 。 若 读者 
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在 互联 网 上 发 现 本 书 任意 形式 的 副本 , 请 告知 网 络 地 址 或 网 站 名 称 , 我 们 将 对 此 予以 处 理 。 
关于 盗版 问题 ， 读 者 可 发 送 邮 件 至 copyright@packtpub.com。 

若 读 者 针对 某 项 技术 具有 专家 级 的 见解 ， 抑 或 计划 撰写 书籍 或 完善 某 部 著作 的 出 版 工 
作 ， 则 可 访问 www.packtpub.com/authors 。 


问题 解答 


若 读者 对 本 书 有 任何 疑问 ， 均 可 发 送 邮件 至 questions@packtpub.com， 我 们 将 竭诚 为 
您 服务 。 
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第 1 章 Hadoop 简介 


本 章 主要 介绍 Hadoop 环境 及 其 核心 组 件 ， 即 Hadoop 分 布 式 文件 系统 (HDFS) 以 


及 MapReduce。 本 章 首 先 探 本 Hadoop 3 版 本 中 的 变化 内 容 以 及 最 新 特性 。 特 别 地 ， 我 们 
将 介绍 HDFS 的 新 特 性 、YARN 和 客户 端 应 用 程序 方面 的 变化 内 容 。 进 一 步 讲 ， 本 章 将 


于 本 地 安装 Hadoop 集群 ， 同 时 展示 某 些 新 的 特征 ， 例 如 纠 删 码 EC》 和 时 间 轴 服务 。 


1 


FE 为 快速 提示 ， 第 10 章 将 向 读者 展示 如 何在 AWS 中 创建 Hadoop 集群 。 
本 章 主要 涉及 以 下 内 容 : 
LU HDFS。 
> 高 可用性 。 
と  Intra-DataNode 均衡 器 。 
と EC. 
> 端口 映射 。 
ū MapReduce, 
> ”任务 级 优化 。 
Q YARN. 
> ”机 会 型 容器 。 
と 时间 轴 服 务 v.2。 
> Docker 容器 。 
口 其 他 一 些 变 化 内 容 。 
口 Hadoop 3.1 的 安装 。 
> HDFS。 
> YARN。 
» EC. 
> 时间 轴 服 务 v2。 


1.1 Hadoop 分 布 式 文件 系统 


HDFS 是 用 Java 实现 的 基于 软件 的 文件 系统 ， 它 位 于 本 机 文件 系统 之 上 。HDFS 背 
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后 的 核心 概念 是 ， 该 系统 将 文件 划分 为 块 〈 一 般 为 128MB) ， 而 非 整 体 处 理 文件 。 这 将 
支持 如 分 布 、 复 制 、 故 障 恢复 等 诸多 特性 ， 更 重要 的 是 可 使 用 多 台 机 器 对 块 进行 分 布 式 
处 理 。 具 体 来 说 , 块 尺寸 可 以 是 64MB. 128MB. 256MB 或 5S12MB ， 且 适用 于 多 种 用 途 。 
对 于 具有 128MB Xf] 1GB 文件 ， 将 有 1024MB/128MB-8 个 块 。 如 果 复 制 因 子 为 3， 那 
么 它 就 是 24 个 块 。HDFS 提供 了 基于 容错 和 故障 恢复 的 分 布 式 存储 系统 ， 主 要 包含 两 个 
组 件 ， 即 NameNode 和 DataNode。 其 中 , NameNode 涵盖 了 文件 系统 所 有 内 容 的 元 数据 ， 
涉及 文件 名 、 文 件 权限 以 及 每 个 文件 块 的 位 置 ， 因 而 也 是 HDFS 中 最 为 重要 的 组 件 。 
DataNode 负责 连接 NameNode， 并 存储 HDFS 中 的 块 ， 同 时 依赖 NameNode 获得 关于 文 
件 系统 中 内 容 的 所 有 元 数据 信息 。 如 果 NameNode 未 包含 任何 信息 ， 那 么 ，DataNode 则 
无 法 向 读 / 取 HDFS 的 客户 端 提 供 信 息 服务 。 

NameNode 和 DataNode 的 处 理 过 程 可 以 在 单机 设备 上 运行 ， 通 常 ，HDFS 集群 由 运 
行 NameNode 进程 的 专用 服务 器 和 运行 DataNode 进程 的 数 千 台 机 器 组 成 。 为 了 能 够 访问 
存储 于 NameNodeNameNode 中 的 内 容 信 息 ， 元 数据 整体 结构 将 存储 于 内 存 中 。 当 设备 出 
现 故障 时 ， 通 过 记录 块 的 复制 因子 ， 可 确保 数据 完整 无 损 。 鉴 于 这 是 一 类 单 点 故障 ， 为 
了 减少 NameNode 故障 而 导致 的 数据 丢失 的 风险 ， 可 以 使 用 一 个 二 级 NameNode 生成 
NameNode 主 内 存 结构 的 快照 。 

DataNode 具有 较 强 的 存储 能 力 , 与 NameNode 不同 , 如果 DataNode 出現 故障 , HDFS 
仍 可 正常 运行 。 当 DataNode 出 现 故 障 时 ，NameNode 自动 处 理 故 障 DataNode 中 所 有数 
据 块 所 减少 的 复制 行为 ， 同 时 确保 该 复制 操作 被 构建 。 考 虑 到 NameNode 知晓 所 有 复制 
块 的 位 置 ， 因 而 连接 至 集群 的 任意 客户 端 都 能 够 顺利 地 工作 。 
9 注意: 

为 了 使 每 个 数据 块 能 够 满足 所 需 的 最 小 复制 因子 ，NameNode 将 复制 所 丢失 的 数据 块 。 

图 1.1 显示 NameNode 中 文件 与 数据 块 间 的 映射 关系 、 数 据 块 的 存储 及 其 在 DataNode 
中 的 复制 行为 。 
在 图 1.1 中 ，NameNode 在 Hadoop 开始 阶段 即 为 单 点 故障 。 


1.1.1 高 可 用 性 


在 Hadoop 1.x 和 Hadoop 2.x 中 , NameNode 的 丢失 可 导致 集群 月 溃 。 在 Hadoop 1.x 
中 ， 其 恢复 过 程 较为 困难 ; 而 Hadoop 2.x 则 引入 了 高 可 用 性 (主动 -被 动 设置 ) ， 并 可 从 
NameNode 故障 中 予以 恢复 。 
图 1.2 显示 了 高 可 用 性 的 工作 方式 。 
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NameNode 
元 数据 操作 


EPS Be 


[2] 


复制 


DataNode 


图 1.1 


高 可 用 性 


NFS 上 的 共享 编辑 ， 或 者 
基 x 分 录 的 Quorum 


NameNode NameNode 
(主动 ) (单机 》 


DataNode 


Hadoop 3.x 中 包含 了 两 个 被 动 式 NameNode 和 一 个 主动 节点 ,以 及 5 个 JournalNode, 
并 以 此 协助 从 灾难 性 故障 中 予以 恢复 。 
O NameNode 机 器 : 运行 主动 和 备用 NameNode 的 机 器 ， 它 们 之 间 应 拥有 相同 的 
硬件 ， 以 及 在 非 HA 集群 中 使 用 的 硬件 。 
ロロ JoumalNode 机 器 : 运行 JournalNode 的 机 器 。JournalNode 守护 进程 则 是 相对 轻 
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量 级 的 , 因此 , 这 一 类 守护 进程 可 与 其 他 Hadoop 守护 进程 合理 地 配置 在 机 器 上 。 
1.1.2 内 部 DataNode 均衡 器 


HDFS 包含 了 一 种 方式 , 可 均衡 数据 节点 间 的 数据 块 , 但 是 , 在 具有 多 个 硬盘 的 相同 
数据 节点 中 并 不 存在 这 样 的 平衡 机 制 。 因 此 , 12 fti DataNode 的 物理 磁盘 可 能 处 于 非 平衡 
状态 。 但 是 ， 为 何 这 会 对 性 能 产生 影响 ? 对 于 非 平衡 磁盘 ，DataNode 级 别 的 数据 块 可 能 
与 其 他 DataNode 相同 , 但 考虑 到 非 平衡 磁盘 , 读 / 写 行为 可 能 会 产生 倾斜 。 因 此 , Hadoop 
3.x 引入 了 内 部 节点 平衡 器 ， 以 平衡 每 个 数据 节点 内 的 物理 磁盘 ， 进 而 降低 数据 倾斜 。 

这 增加 了 在 集群 上 运行 的 任何 进程 执行 的 读 / 写 速度 ， 例 如 mapper BY reducer. 


1.1.3” 纠 删 码 


É Hadoop 诞生 以 来 , HDFS 一 直 是 基本 组 件 。 在 Hadoop 1.x 和 Hadoop 2.x 中 , HDFS 
安装 所 用 的 复制 因子 一 般 为 3。 

与 默认 的 复制 因子 (3) 相 比 ，EC 可 能 是 HDFS 多 年 来 最 大 的 变化 。 通 过 将 复制 因 
子 从 3 降低 到 1.4， 从 根本 上 增加 了 数据 集 的 容量 。 下 面 将 进一步 考查 EC. 

EC 可 视 为 一 种 数据 保护 方法 ， 在 这 种 方法 中 ， 数 据 被 分 解 为 片段 、 扩 展 、 用 元 余数 
据 片段 进行 编码 ， 并 存储 在 一 组 不 同 的 位 置 或 存储 中 。 在 此 过 程 中 的 某 个 时 间 点 处 ， 如 
果 由 于 数据 损坏 而 导致 丢失 , 那么 可 以 使 用 存储 在 其 他 地 方 的 信息 进行 重 构 。 虽然 EC H 
有 CPU 密集 型 特征 ， 但 对 于 大 量 数据 的 可 靠 存储 CHDFSO ， 可 极 大 地 减少 所 需 的 存储 
量 。 HDFS 通过 复制 行为 提供 可 靠 性 存储 , 其 代价 也 较为 高 昂 一 一 一 般 需 要 3 个 存储 数据 
的 副本 ， 因 而 在 存储 空间 方面 其 开销 增 至 200%. 


1.1.4 端口 号 


在 Hadoop 3.x 中 ， 针 对 各 种 服务 的 诸多 端口 均 有 所 变化 。 

之 前 ， 多 个 Hadoop 服务 的 默认 端口 位 于 Linux 临时 端口 范围 内 (32768 一 61000) 。 
这 表明 ， 在 启动 阶段 ， 由 于 冲突 问题 ， 服 务 有 时 无 法 绑 定 至 对 应 端口 上 。 

此 类 冲突 端口 已 从 临时 范围 中 被 移 除 ， 同 时 也 会 对 NameNode、 二 级 NameNode 和 
KMS 产生 一 定 的 影响 。 

具体 変化 如 下 所 示 。 

D NameNode 端口 : 50470—9871. 50070— 9870 和 8020— 9820. 

O 二 级 NameNode 端口 : 50091— 9869 和 50090— 9868. 
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Q DataNode 端口 : 50020 一 9867、50010 一 9866、50475 一 9865 和 50075— 9864. 


12 MapReduce 框架 


理解 这 个 概念 的 一 个 简单 方法 是 ,想象 你 和 你 的 朋友 把 成 堆 的 水 果 分 类 装 至 盒子 中 。 
对 此 ， 你 需要 为 每 个 人 分 配 一 项 任务 : 首先 将 生 水 果 装 至 一 个 篮子 中 《〈 混 在 一 起 ) ， 然 
后 把 水 果 分 装 为 不 同 的 盒子 。 然 后 每 个 人 都 执行 同样 的 任务 ， 将 这 一 篮子 水 果 分 成 不 同 
的 种 类 。 最 后 ， 可 从 你 所 有 的 朋友 那里 得 到 很 多 盒 水 果 。 随 后 ， 可 将 同类 水 果 装 箱 ， 对 
其 称 重 、 封 装 并 运输 。 单 词 计 数 则 是 另 一 个 与 MapReduce 框架 较为 类 似 的 示例 。 图 1.3 
显示 了 处 理 输入 数据 的 各 个 阶段 。 首 先 将 输入 划分 至 多 个 工作 节点 ， 随 后 生成 输出 结 
即 单词 计数 结果 。 


Input Splitting Mapping Shuffling Reducing 


Hadoop Cool >, Hadoop,1 Hadoop,1 Hadoop,3 
Cool,1 
Hadoop,1 


Hadoop Cool Wow 1 
Wow Hadoop > Wow Hadoop | Hadoop,1 Hadoop,3 


Cool Hadoop Wow Cool,2 


Dee Wow,2 
Cool Hadoop Wow "s 


图 1.3 


MapReduce 框架 由 单一 的 ResourceManager 和 多 个 NodeManager 构成 (通常 ， 
NodeManager 与 HDFS 的 DataNode 协同 存在 ) 。 

MapReduce 增加 了 对 映射 输出 收集 器 的 本 地 实现 的 支持 。 这 可 以 使 性 能 提高 大 约 
30% 甚 至 更 多 ， 对 于 需要 大 量 数据 清洗 工作 的 任务 来 说 尤其 如 此 。 

本 地 库 可 通过 Pnative 自动 构建 。 通 过 在 任务 配置 中 设置 mapreduce.job.map.output. 
collector.class=org.apache.hadoop.mapred.nativetask.NativeMapOutputCollectorDelegator, FJ 
在 逐 项 任务 的 基础 上 选择 新 的 采集 器 。 

此 处 所 涉及 的 基本 理念 是 ， 可 添加 NativeMapOutputCollector， 进 而 处 理 映射 器 发 出 
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的 键 / 值 对 。 最 终 ，sort、spill 和 IFile 序列 化 均 可 在 本 地 代码 中 完成 。 经 初步 测试 后 〈 采 
用 Xeon E5410，jdk6u24) ， 对 应 结果 良好 ， 如 下 所 示 : 
Q 5 Java HEL, sort 大 约 提升 了 3 一 10 倍 〈 仅 支持 二 进 制 字符 串 比较 ) 。 
Q File 比 Java 大 约 块 3 倍 , BI 500MB/ 秒 。 如 果 采 用 了 CRC32C 硬件 , 在 毎秒 1GB 
或 更 高 的 范围 内 ， 速 度 还 将 得 到 进一步 提升 。 
QO 合并 代码 尚未 完成 ， 所 以 测试 使 用 了 io.sort.mb 防止 中 途 溢出 。 


1.3 YARN 


当 应 用 程序 需要 运行 时 ， 客 户 端 启 动 ApplicationMaster， 然 后 它 与 ResourceManager 
协商 以 容器 的 形式 获取 集群 中 的 资源 。 容 器 表示 分 配 在 单个 节点 上 用 于 运行 任务 和 进程 
的 CPU (内 核 ) 和 内 存 。 容 器 由 NodeManager 监测 并 由 ResourceManager 调度 。 

容器 的 示例 如 下 所 示 : 

口 单 核 和 4GB RAM. 

口 双核 和 6GB RAM. 

Q 4 核 和 20MB RAM. 

一 些 容 器 被 指定 为 映射 器 ， 而 某 些 容器 则 被 指定 为 reducer; 所 有 这 些 都 通过 
ApplicationMaster 和 ResourceManager 协调 。 该 框架 称 作 YARN， 如 图 1.4 所 示 。 


Node 
Manager 
seat Application; 
ii Master | 


1 Node `. |. 
1—1Manager |. `. 


\ 


. 1 Application: 
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当 采 用 YARN 时 ， 多 个 不 同 的 应 用 程序 可 请 求 和 执行 容器 中 的 任务 ， 并 可 较 好 地 共 
享 集 群 资源 。 然 而 ， 随 着 集群 尺寸 的 增加 ， 以 及 各 种 应 用 程序 和 需求 的 变化 ， 在 一 段 时 
间 内 ， 资 源 利用 效率 也 将 随 之 降低 。 


13.1 ”机 会 型 容器 


机 会 型 容器 可 传输 至 NodeManager 中 ， 即 使 它们 在 特定 时 间 点 不 能 立即 开始 执行 。 
这 与 YARN 容器 不 同 ， 该 容器 是 在 节点 中 调度 的 ， 前 提 是 存在 未 分 配 的 资源 。 
在 这 一 类 应 用 中 , 机 会 型 容器 将 在 NodeManager 中 排队 ,直到 所 需 的 资源 可 用 为 止 。 
这 些 容器 的 最 终 目 标 是 提高 集群 资源 利用 率 ， 进 而 提高 任务 吞吐 量 。 
相应 地 ， 存 在 两 种 容器 类 型 ， 具 体 如 下 。 
口 ” 保 证 型 容器 : 此 类 容器 与 现 有 的 YARN 容器 相对 应 ， 并 由 容量 调度 器 分 配 。 当 
且 仅 当 相 关 资 源 可 以 立即 开始 执行 时 ， 它 们 才 被 传输 到 节点 。 
QO ”机 会 型 容器 : 与 保证 型 容器 不 同 ， 在 这 种 情况 下 ， 当 容器 被 分 派 到 一 个 节点 时 ， 
无 法 保证 存在 可 用 资源 以 供 执行 。 相 反 ， 它 们 将 在 NodeManager 中 排队 ， 直 到 
资源 变 得 可 用 为 止 。 


1.3.2 YARN 时 间 轴 服务 v.2 


YARN 时 间 轴 服务 v.2 主要 处 理 下 列 具有 挑战 性 的 问题 : 
O ”增强 时 间 轴 服务 的 可 伸缩 性 和 可 靠 性 。 

QO 通过 引入 流 和 聚合 来 提高 可 用 性 。 

1. 增强 可 伸缩 性 和 可 靠 性 


版 本 2 采用 了 更 具 伸 缩 性 的 分 布 式 writer 体系 结构 和 后 端 存储 ; 而 v.1 使 用 了 一 个 
writer/reader 体系 结构 和 后 端 存储 实例 ， 因 而 其 可 伸缩 性 仅 限 于 小 型 集群 。 

由 于 Apache HBase 可 以 很 好 地 扩展 至 更 大 的 集群 ,同时 可 保持 良好 的 读 写 响应 时 间 ， 
因而 v.2 选择 HBase 作为 主 后 端 存储 。 

2. 可 用 性 方面 的 改进 


很 多 时 候 ， 用 户 更 感 兴趣 的 是 在 流 级 别 ， 或 YARN 应 用 程序 的 逻辑 分 组 中 获得 的 信 
息 。 因 此 ， 可 以 更 方便 地 启动 一 系列 的 YARN 应 用 程序 来 实现 一 个 逻辑 工作 流 。 
针对 于 此 ，v.2 支持 流 这 一 概念 ， 以 及 流 级 别 上 的 聚合 度量 结果 。 
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3. 架构 

YARN 时 间 轴 服务 使 用 一 组 收集 器 将 数据 写 入 后 端 存 储 。 收 集 器 与 其 专用 的 应 用 程 
序 管理 器 一 起 分 发 和 放置 。 除 了 资源 管理 器 时 间 轴 采集 器 之 外 ， 隶 属于 该 应 用 程序 的 所 
有 数据 均 被 发 送 至 应 用 程序 级 别 的 时 间 轴 采集 器 中 。 

对 于 给 定 的 应 用 程序 ， 应 用 程序 管理 器 可 将 应 用 程序 数据 写 入 共处 的 时 间 轴 采集 器 
中 (这 也 是 该 版 本 中 的 NM 辅助 服务 ) 。 除 此 之 外 ， 运 行 应 用 程序 容器 的 、 其 他 节点 的 
节点 管理 器 ， 还 将 向 运行 应 用 程序 管理 器 节点 的 时 间 轴 采集 器 写 入 数据 。 

资源 管理 器 还 将 维护 自身 的 时 间 轴 采集 器 ， 仅 发 送 YARN 通用 生命 周期 事件 ， 以 保 
持 其 写 入 量 的 合理 性 。 

时 间 轴 读 取 器 是 独立 于 时 间 轴 采集 器 的 独立 守护 进程 ， 且 致力 于 通过 REST API 提供 
查询 ， 如 图 1.5 所 示 。 


Flow Runs YARN App Containers 
Applications Attempts 


- Container 1 
pplication Attempt 1 KT 
Container 2 


Container 1 


Attempt 1 


Container 2 
Application 
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Container 1 
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Container 2 


Container 1 


Application 
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Container 2 


Flow Run 2 


Container 1 


Application Attempt 1 


Container 2 


图 1.6 显示 了 高 层 设计 结果 。 
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运行 AM 的 worker 节点 ) 


に ニー 2 ララ 
时 间 轴 B 
采集 im 存储 


时 间 轴 采集 器 


容器 事件 /指标 
时 间 轴 读 取 器 池 


运行 容器 的 worker 节点 


一 一 和 写 入 流 
读 取 流 


1.4 其 他 变化 内 容 


Hadoop 3 中 还 包含 了 其 他 一 些 变化 内 容 ， 主 要 涉及 维护 和 操作 方面 的 简化 行为 。 特 
别 地 ， 命 令 行 工 具 经 修正 后 更 加 适用 于 团队 操作 的 需求 。 
1.4.1 最 低 Java 版 本 


全部 Hadoop JAR 均 被 编译 为 Java 8 运行 期 版 本 。 因 此 ， 使 用 Java 7. ( 或 更 低 版本 ) 
的 用 户 需要 升级 至 Java 8。 


1.4.2 Shell 脚本 重 写 


Hadoop Shell 脚本 经 重 写 后 ， 修 复 了 大 量 的 bug， 同 时 也 包含 了 一 些 最 新 特性 。 
版 本 更 新 文档 中 列 出 了 相应 的 不 兼容 信息 ， 读 者 可 访问 https://issues.apache.org/jira/ 
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browse/HADOOP-9902 对 其 进行 查看 。 

除 此 之 外 ， 文 档 中 还 显示 了 更 为 详细 的 信息 ， 读 者 可 访问 https://hadoop.apache.org/ 
docs/r3.0.0/hadoop-project-dist/hadoop-common/UnixShellGuide.html 以 了 解 更 多 内 容 。 
https://hadoop.apache.org/docs/r3.0.0/hadoop-projectdist/hadoop-common/UnixShellAPI.html 
中 所 展示 的 文档 相信 会 引起 某 些 高 级 用 户 的 关注 一 一 其 中 描述 了 某 些 最 新 的 功能 ， 特 别 
是 与 可 伸缩 性 相关 的 内 容 。 


14.3 ”覆盖 客户 端的 JAR 


最 新 的 hadoop-client-api 和 hadoop-client-runtime 构建 已 被 添加 进来 ， 读 者 可 访问 
https://issues.apache.org/jira/browse/HADOOP-11804 对 其 进行 查看 。 这 些 构件 将 Hadoop 
的 依赖 关系 隐藏 到 一 个 JAR 中 。 因 此 ， 可 避免 将 Hadoop 的 依赖 关系 泄漏 到 应 用 程序 的 
类 路 径 上 。 

作为 兼容 于 Hadoop 文件 系统 的 一 种 备 选 方案 ，Hadoop 当前 支持 与 Microsoft Azure 
Data Lake 和 Aliyun Object Storage System 间 的 集成 。 


1.5 安装 Hadoop 3 


本 节 将 考查 如 何在 本 地 机 器 上 安装 单 节 点 Hadoop 3 集群 。 对 此 , 可 访问 https://hadoop. 
apache.org/docs/current/hadoop-project-dist/hadoop-common/ingleCluster.html, Jf35 fH rp 
的 内 容 。 

关于 单 节点 设置 的 安装 和 配置 问题 ， 上 述 文档 列 出 了 详细 的 描述 信息 ， 据 此 ， 可 通 
过 Hadoop MapReduce 和 HDFS 快速 地 执行 某 项 操作 。 


15.4 准备 条 件 

首先 ， 需 要 针对 Hadoop 安装 Java 8。 如 果 读 者 尚未 在 机 器 上 安装 Java 8， 可 访问 下 
载 并 安装 Java 8。 

当 在 浏览 器 中 打开 下 载 链接 后 ， 对 应 结果 如 图 1.7 所 示 。 
152 下載 


通过 链接 http://apache.spinellicreations.com/hadoop/common/hadoop-3.1.0/ F 2 Hadoop 
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3.1 版本 。 


CŒ @ Oracle Corporation [US] | https://wwwjava.com/en/download, 


ee Free Java Download 

It you want to download 

Java for another computer. Download Java for your desktop computer now! 
Or Operating System, click Version 8 Update 171 


GE Release date April 17, 2018 
All Java Downloads. 


Tem 


Why am | always redirected 

to this page when visiting a 

page with a Java app? ・ What is Java? » Do | have Java? > Need Help? 
= Learn more 

-Bepor an issue 


Why download Java? 


Java technology allows you to work and play in a secure computing environment. Upgrading to the latest 
Java version improves the security of your system, as older versions do not include the latest security 
updates, 


Java allows you to play online games, chat with people around the world, calculate your mortgage 
interest, and view images in 30, just to name a few. 


Java software for your computer, or the Java Runtime Environment, is also referred to as the Java 
Runtime, Runtime Environment, Runtime, JRE, Java Virtual Machine, Virtual Machine, Java VM, JVM, VM, 
Java plug-in, Java plugin, Java add-on or Java download. 


Select Language | About Java | Support | Developers | Feedback 
Privacy | Cookie Preferences | Terms of Use | Trademarks | Disclaimer 


图 1.7 
当 打 开 下 载 链接 后 ， 对 应 页 面 如 图 1.8 所 示 。 


€ C | © apache.spinellicreations.com/hadoop/common/hadoop-3.1.0/ 
Index of /hadoop/common/hadoop-3.1 .0 


Name Last modified Size Description 


9 nes Directory - 


hadoop-3.1.0-src.tar.gz 05-Apr-2018 16:19 26M 
hadoop-3.1.0.tar.gz 05-Apr-2018 16:19 311M 


Apache/2.2.15 (CentOS) DAV/2 PHP/5.3.3 mod ssl/2.2.15 OpenSSL/1.0.0-fips Server at apache spinellicreations.com Port 80 


图 1.8 
随后 ， 将 hadoop-3.1.0.tar.gz 文件 下 载 至 本 地 机 器 上 。 
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1.5.3 安装 


执行 下 列 各 项 步骤 ， 并 在 机 器 上 安装 单 节点 Hadoop 集群 。 

(1) 利用 下 列 命令 解压 下 载 后 的 文件 。 

tar -xvzf hadoop-3.1.0.tar.gz 

(2) 当 Hadoop 二 进 制 文件 解压 完毕 后 ， 运 行 下 列 命令 对 其 进行 测试 ， 以 确保 二 进 
制 文件 可 在 本 地 机 器 上 正常 工作 : 


cd hadoop-3.1.0 


mkdir input 
cp etc/hadoop/*.xml input 


bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduceexamples-3.1.0.jar 
grep input output 'dfs[a-z.]+' 


cat output/* 

如 果 一 切 运行 正常 ， 将 会 看 到 一 个 输出 目录 ， 其 中 显示 了 一 些 输出 结果 ， 以 及 示例 
命令 的 工作 效果 。 
Qi. 

缺失 Java 则 是 一 类 较为 常见 的 错误 。 对 此 ， 需 要 检查 是 否 在 机 器 上 安装 了 Java, YA 
及 是 否 正 确 地 设置 了 JAVA_HOME 环境 变量 


1.5.4 设置 无 密码 ssh 


现在 ， 通 过 运行 一 个 简单 的 命令 ， 来 检查 是 否 可 以 在 不 使 用 密码 的 情况 下 ssh 到 
localhost, 如 下 所 示 : 

$ ssh localhost 

否则 ， 可 执行 下 列 命令 : 


$ ssh-keygen -t rsa -P '' -f -/.ssh/id rsa 
$ cat -/.ssh/id rsa.pub >> -/.ssh/authorized keys 
$ chmod 0600 -/.ssh/authorized keys 


第 1 章 Hadoop 简介 ・13・ 


1.5.5 设置 NameNode 


下面 針 対 etc/hadoop/core-site.xml 配置 文件 进行 如 下 修改 : 


«configuration» 
<property> 
<name>fs .defaultFS</name> 
<value>hdfs://localhost:9000</value> 
</property> 
</configuration> 


接 下 来 ， 对 etc/hadoop/hdfs-site.xml 配置 文件 进行 如 下 修改 : 


«configuration» 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 
<name>dfs .name .dir</name> 
<value><YOURDIRECTORY>/hadoop-3.1.0/dfs/name</value> 
</property> 
</configuration> 


1.5.6 启动 HDFS 


执行 下 列 步骤 以 启动 HDFS (NameNode 和 DataNode) 。 
(1) 格式 化 文件 系统 : 


$ ./bin/hdfs namenode -format 


(2) 启动 NameNode 守护 进程 和 DataNode 守护 进程 : 
$ ./sbin/start-dfs.sh 
Hadoop 守护 进程 日 志 输 出 被 写 入 SHADOOP LOG DIR 目录 中 (默认 为 SHADOOP 
HOME/logs) 。 
(3) 浏览 NameNode 的 Web 界面 ， 默 认为 http://localhost:9870/。 
(4) 4 HDFS 目录 执行 MapReduce 任务 : 


$ ./bin/hdfs dfs -mkdir /user 
$ ./bin/hdfs dfs -mkdir /user/<username> 
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(5) 结束 后 ， 利 用 下 列 命令 终止 守护 进程 : 


$ ./sbin/stop-dfs.sh 


(6) 打开 浏览 器 检查 本 地 Hadoop， 该 操作 可 在 http:Wlocalhost:9870/ 处 启动 。 图 1.9 
显示 了 HDFS 的 安装 结果 。 


CO localhost:9870/dfshealth.html#tab-overview 


Hadoop Overview Datanodes Datanode Volume Failures © Snapshot Startup Progress Utilities 


Overview 'ocalhost:9000' (active) 


Started: Sun Apr 22 21:49:18 -0400 2018 

Version: 3.1.0, r16b70619a24cdcf5d3b0fcf4b58ca77238ccbe6d 
Compiled: Thu Mar 29 20:00:00 -0400 2018 by centos from branch-3.1.0 
Cluster ID: CID-6074d571-8638-49ab-9dcb-e24ed4866e50 


Block Pool ID: BP-770583072-10.0.0.103-1524448088168 


Summary 


Security is off. 

Safemode is off. 

1 files and directories, 0 blocks (0 replicated blocks, 0 erasure coded block groups) = 1 total filesystem object(s). 

Heap Memory used 78.58 MB of 432 MB Heap Memory. Max Heap Memory is 3.56 GB. 

Non Heap Memory used 46.55 MB of 47.84 MB Commited Non Heap Memory. Max Non Heap Memory is <unbounded>. 


Configured Capacity: 233.47 GB 
Configured Remote Capacity: 0B 

DFS Used: 4 KB (0%) 

Non DFS Used: 206.34 GB. 

DFS Remaining: 23.5 GB (10.07%) 


Block Pool Used: 4 KB (096) 


图 1.9 
(7) 选择 Datanodes 选项 卡 ， 对 应 节点 如 图 1.10 所 示 。 
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€ > QC Oocalhost98701dfs 


Datanode Information 


の Decommissioned © Decommissioned & dead 。 In Maintenance & dead 


Datanode usage histogram 


Disk usage of each DataNode (%) 


In operation 


[n Search: 
Node IL Http Adress Last contact i Last Block Report Block pool used. 
V1000.1099868 (1270019085) — "o/0001039994 — m 4 KB (0%) 


Showing 1101 of 1 entries 


Fl 1.10 
(8) Hit log, Al 1.11 显示 了 集群 中 的 各 种 日 志 。 
GC © localhost:9870/logs/ 


Directory: /logs/ 


SecurityAuth-sridharalla.audit Obytes Apr 22, 2018 9:31:12 PM 


hadoop-sridharalla-datanode-Moogie.local.log 31693 bytes Apr 22, 2018 9:49:22 PM 
hadoop-sridharalla-datanode-Moogie.local.out 485 bytes Apr 22, 2018 9:49:21 PM 
hadoop-sridharalla-namenode-Moogie.local.log 39439 bytes Apr 22, 2018 9:50:24 PM 
hadoop-sridharalla-namenode-Moogie.local.out 485 bytes Apr 22, 2018 9:49:19 PM 
hadoop-sridharalla-secondarynamenode-Moogie.locallog 33138 bytes Apr 22, 2018 9:50:24 PM 
hadoop-sridharalla-secondarynamenode-Moogie.local.out 485 bytes Apr 22, 2018 9:49:24 PM 


图 1.11 


(9) 图 1.12 显示 了 集群 组 件 的 JVM 度量 结果 。 
(10) 如 图 1.13 所 示 ， 还 可 检查 当前 配置 状态 ， 其 中 包括 整体 配置 和 默认 设置 内 容 。 
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C © localhost:2870/imx 


{ 

"beans" : [ { 
"name" : "Hadoop:service-NameNode,name-JvmMetrics", 
"modelerType" : "JvmMetrics", 
"tag.Context" : "jvm" 
"tag.ProcessName" : "NameNode", 
"tag.SessionId" : null, 
"tag.Hostname" : "Moogie.local", 
"MemNonBeapUsedM" : 47.575027, 
"MemNonBeapCommittedM" : 49.148438, 
"MemNonBeapMaxM" : -1.0, 
"MemBeapUsedM" : 103.684074, 
"MemHeapCommittedM" : 432.0, 
"MemBeapMaxM" : 3641.0, 
"MemMaxM" : 3641.0, 
"GcCount" : 8, 
"GcTimeMillis" : 247, 
"GcNumWarnThresholdExceeded" 
"GcNumInfoThresholdExceeded" 
"GcTotalExtraSleepTime" : 435, 
"ThreadsNew" : 0, 
"ThreadsRunnable" 10, 
"ThreadsBlocked" 
"ThreadsWaiting 
"ThreadsTimedWaiting" : 36, 
"ThreadsTerminated" : 0, 
"LogFatal" 
"LogError" 
"LogWarn" 
"LogInfo" : 
{ 
"name" : "JMImplementation:type-MBeanServerDelegate", 
"modelerType" : "javax.management.MBeanServerDelegate", 
"MBeanServerld" : "Moogie.local 1524448157872", 
"SpecificationName" : "Java Management Extensions", 
"SpecificationVersion" : "1.4", 


图 1.12 


CO localhost:9870/conf 


This XML file does not appear to have any style information associated with it. The document tree is shown below 


v «configuration» 
v «property» 
<name>mapreduce. jobhistory. jhist .format</name> 
<value>binary</value> 
<final>false</final> 
<source>mapred-default .xml</source> 
</property> 
¥<property> 
<name>fs.s3a.retry.interval</name> 
<value>500ms</value> 
<final>false</final> 
<source>core-default .xm1</source> 
</property> 
¥<property> 
<name>dfs.block.access.token.1ifetime</name> 
<value>600</value> 
<final>false</final> 
<source>hdfs-default .xm1</source> 
</property> 
v «property» 
«name»mapreduce. job. heap.memory-mb.ratio</name> 
<value>0.8</value> 
<final>false</final> 
<source>mapred-default .xml</source> 
</property> 
¥<property> 


图 1.13 
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C11) 此 外 ， 还 可 浏览 最 新 安装 的 集群 的 文件 系统 ， 如 图 1.14 所 示 。 


€ > Œ O localhost:9870/explorer htmi#/ 


Browse Directory 


Showing 1 to 1 ol 1 entries 


Hadoop, 2018. 


图 114 
至 此 ， 应 可 看 到 并 使 用 基本 的 HDFS 集群 ， 但 这 仅 是 一 个 包含 某 些 目录 和 文件 的 


HDFS 文件 系统 。 除 此 之 外 ， 还 需要 一 项 作业 /任务 调度 服务 ， 并 使 用 集群 以 满足 计算 需 
求 ， 而 非 仅仅 是 存储 。 


1.5.7 设置 YARN 服务 


本 节 将 设置 YARN 服务 、 启 动 相关 组 件 、 运 行 和 操控 YARN 集群 。 
(1) 启动 ResourceManager 守护 进程 和 NodeManager 守护 进程 。 
$ sbin/start-yarn.sh 
(2) 浏览 ResourceManager 的 Web 界面 ， 默 认 状 态 下 位 于 http://localhost:8088/。 
(3) 运行 MapReduce 任务 。 
(4) 结束 后 ， 利 用 下 列 命 令 终止 守护 进程 : 


$ sbin/stop-yarn.sh 


图 1.15 显示 了 YARN ResourceManager。 对 此 ,可 在 浏览 器 中 输入 http://1ocalhost:8088/ 
进行 查看 。 
图 1.16 所 示 视 图 展示 了 集群 中 的 资源 队列 ， 以 及 处 于 运行 状态 下 的 应 用 程序 。 除 此 
之 外 ， 还 可 于 此 处 查看 和 监视 运行 的 各 项 任务 。 

至 此 ， 我 们 应 能 够 查看 到 运行 Hadoop 3.1 后 ， 本 地 集群 中 处 于 运行 状态 下 的 YARN 
服务 。 稍 后 ， 还 将 继续 考查 Hadoop 3.x 中 的 一 些 新 特性 。 
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€ > C |O localhost 8088/ciuster 


All Applications 


~ Cluster Cluster Metrics 


About ‘Apps Submitted Apps Pending Apps Running ^ AopsComplotod Containers Running Memory Used Memory Total Memory Reserved ^ VCores Used VCoresTolal — VCorosR 
Nodes o o o o o os sas oB o a o 


Node Labels Cluster Nodes Metrics 
aen Active Nodes Decommissioning Nodes Decommissioned Nodes Lost Nodes Unheaithy Nodes Rebooted Nodes. Shutdown No 


Ani 
1 o o o 0 o 
Scheduler Metrics 
Scheduler Type Schedutng Resource Type Mownum Abocation Maximam Allocation Maximum Cluster Application Pronty 

FINISHED Capacity Soheduer Imermory m (unit=¥), vores] memory 1024, vCores:1> <memory:8192. vCores:4>. 

FAILED 

KILLED Show 2c + emwes Search: 
Scheduler Alocated 


seg Rem. P 

!D User Namo Applcaton Quoue Applicaton SiarTime Fmenmme Ste FnaiSaus Wo “cpu ACCAed CPU sol cud, Progress Tracking Bi 

Mm = Type Prorty es V ors w S NI 
No daa avatatie n tabio 

Showing 010 0o10 envios 


图 1.15 


€ . QC O ecahost8088/clusterscheduler = 


4f Logged in as: dr. 
(C 


Eloro) NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING 
Applications 


~ Cluster Cluster Metrics 
About Apos Submitted Apps Pending Apps Runnng Apps Completed Containers Running Memoy Used Memory Total Mamoy Reseved 。 VCoresUsed 。 VCores Total — VCores Reserve 
Nodes o o o o o oB goB og o 8 o 
Ciustor Nodos Metrics 
‘Active Nodos Decommissioning Nodes Decommasowd Nodos Lost Nodos Unneatny Novos Robootod Nodes ‘Shutdown Nodos 
o o o o 


Node Labels 
Applications 
NEW 
NEW. SAVING 1 2 9 
SUBMITTED Scheduler Metrics 
RUNNING Scheduler Type Scheduling Resource Type Minimum Allocation Maximum Allocation Maximum Cluster Application Priority 
EINISHED Capacity Scheduler. [momory-mb (unit-M), vcores] memory 1024, vCores:1> memory 8192, vCores:4> o 
fe Bumgsehedderoge] tmnt 
KILLED 
Scheduler Application Queues 


Legend: Capacity BUSE NUH ^ Max Capacity “Users Requesting Resources Auto Created Queues 


Queue: root 0.0% used 
» (* Queue: default 0.0% used 


"Tools 


Show 20 remee Soan, 
‘cated Reserved 
MD User Name Applcaten Queue Apptcaten Sunma Frane Stato Frasaus Surio, CE. oe MERI" Reseved Nol ol Progress Tracking ct! 
Prony Goren Memory Queue star Ur? ‘Noses 
No data avalbio in tabio 

Stowrg o t00 of 0 entres 
Aggregate scheduler counts 

Total Conner Allocatons(court) Toi Container Raieasostcouni) Total Fulec Reseratonseount) Total Container Preemptons(ooun) 


o 
Last scheduler run 


Time. Allocations(count - resources) Reservations(ccunt - resources) Releasos(count - resources) 
‘Sun Apr 22 222228 -0400 2018. 9-<memory:0, Cores 0> 0-<memory9, Cores 0> 0- memory, vCores 0> 


图 1.16 


1.5.8 纠 删 码 


EC 是 Hadoop 3.x 中 的 一 个 重要 变化 , 与 之 前 的 版 本 相 比 ， 旨 在 改进 HDFS 的 应 用 效 
率 。 在 之 前 的 版 本 中 ， 例 如 ， 复 制 因子 设置 为 3， 对 于 各 类 数据 来 说 ， 无 论 即 将 执行 的 任 
务 有 多 重要 ， 这 都 将 导致 集群 文件 系统 的 巨大 浪费 。 

通过 相关 策略 , 并 将 对 应 策略 分 配 至 HDFS 中 的 目录 , 可 对 EC 进行 适当 设置 。 对 此 ， 
HDFS 提供 了 ec 子 命令 ， 进 而 执行 与 EC 相关 的 管理 命令 : 


第 1 章 Hadoop 简介 ・19・ 


hdfs ec [generic options] 

[-setPolicy -path «path» [-policy <policyName>] [-replicate]]l 
[-getPolicy -path <path>] 

[-unsetPolicy -path <path>] 

[-listPolicies] 

[-addPolicies -policyFile <file>] 

[-listCodecs] 

[-enablePolicy -policy <policyName>] 

[-disablePolicy -policy <policyName>] 

[-help [cmd ...]] 


每 个 命令 的 详细 解释 如 下 。 
[-setPolicy -path «path» [-policy <policyName>] [-replicate]]: 在 特定 路 径 中 , 设置 
某 个 目录 上 的 EC 策略 , 其 中 包括 以 下 内 容 。 


口 


口 口 


口 


口 


と 


と 


path: HDFS iiia 这 定义 为 一 个 强制 型 参数 。 此 外 ， 制 定 某 项 策 
略 仅 会 对 新 创建 的 文件 产生 影响 ， 而 不 会 影响 到 现 有 的 文件 。 

policyName: 在 当前 目 zi 文件 所 使 用 的 EC 策略 。 如 果 设 置 了 
dfs.namenode.ec.system.default.policy， 那 么 ， 该 参数 将 被 忽略 。 该 路 径 的 
EC 策略 将 采用 配置 中 的 默认 值 进 行 设置 。 

-replicate: 在 当前 目录 中 ,使 用 特定 的 REPLICATION 策略 ， 并 强制 当前 目 
SOKA 3x 复制 方案 。 

-replicate and -policy <policyName>: 定义 为 可 选 参数 ， 且 无 法 被 同时 指定 。 


[-getPolicy -path <path>]: 获取 指定 路 径 上 文件 或 目录 的 EC 策略 的 详细 信息 。 
[-unsetPolicy -path <path>]: 取消 某 项 EC 策略 (该 策略 通过 之 前 在 某 个 目录 上 
调用 setPolicy 而 被 设置 ) 。 如 果 当 前 目录 继承 自 上 一 级 目录 中 的 EC 策略 ， 
unsetPolicy 将 表示 为 一 个 空 操作 。 在 不 包含 显 式 策略 集 的 目录 中 取消 策略 将 不 
会 返回 错误 。 

[-listPolicies]: 列 出 所 有 在 HDFS 中 注册 的 EC 策略 (包括 已 启用 的 、 禁 用 的 、 
被 移 除 的 策略 ) 。 其 中 ， 只 有 启用 的 策略 适合 与 setPolicy 命令 一 起 使 用 。 
[-addPolicies -policyFile <file>]: 添加 EC 策略 列表 。 读者 可 访问 etc/hadoop/user_ 
ecdfs.namenode.ec.policies.max.cellsize policies.xml.template 以 查看 示例 策略 文 
件 。 此 外 ， 最 大 单元 格 尺寸 定义 于 dfs.namenode.ec.policies.max.cellsize 属性 中 , 
对 应 的 默认 值 为 4MB。 当 前 , HDFS 支持 用 户 添加 共计 64 项 策略 ， 被 加 入 的 策 
略 ID 位 于 64 一 127。 如 果 已 经 添加 了 64 项 策略 ， 那 么 策略 添加 行为 将 失败 。 
[-listCodecs]: 获取 系统 中 所 支持 的 EC 编 解码 器 和 编码 器 的 列表 。 其 中 ， 编 码 
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器 表示 为 编 解 码 器 的 实现 ， 编 解码 器 可 包含 不 同 的 实现 ， 因 而 涉及 不 同 的 编码 
器 。 基 于 编 解码 器 的 编码 器 则 是 按照 回 退 (fall back) 顺序 列 出 的 。 
[-enablePolicy -policy <policyName>]: 启用 某 项 EC 策略 。 
[-disablePolicy -policy <policyName>]: 禁用 某 项 EC 策略 。 

通过 -listPolicies 命令 , 可 列 出 集群 中 当前 指定 的 所 有 EC 策略 ,以 及 相关 策略 的 状态 
(无 论 是 否 被 ENABLED 或 DISABLED) ， 如 图 1.17 所 示 。 


口 
口 


1.0 sridharallo$ ./bin/hdfs ec -listPolicies 
159,587 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes 


Erasure Coding Polici 
ErasureCodingPolicy=[Name=RS-10-4-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=10, numParityUnits-4]], CellSize-1048576, Id-5], State= 
DISABLED 

ErasureCodingPolicy =RS- 024k, Schema-[ECSchema-[Codec-rs, numDataUnits=3, numParityUnits-2]], CellSize-1048576, Id-2], State-DI 
SABLED 

ErasureCodingPolicy=[Name=RS-6-3-1 [EC =[Cod ; 0 6, numParityUnits-3]], C 71048576, , State=EN 


4k, Schema-[ECSchema-[C -legacy, numDataUnits-6, numPartty eo 1048576, I 


reCodingPoli cy«[Name-XOR-2 -1-1024k, ma= [ECSchema- [Codec numDataUnits=2, numParityUnits-1]], CellSize-1048576, Id-4], State= 
DISABLED 


图 1.17 
下 面 测试 集群 中 的 EC。 首先 ， 在 HDFS 中 的 目录 ， 如 下 所 示 : 


-/bin/hdfs dfs -mkdir /user/normal 
./bin/hdfs dfs -mkdir /user/ec 


在 构建 了 两 个 目录 后 ， 可 在 任意 路 径 上 设置 策略 ， 如 下 所 示 : 


./bin/hdfs ec -setPolicy -path /user/ec -policy RS-6-3-1024k 
Set RS-6-3-1024k erasure coding policy on /user/ec 


当前 ， 将 任意 内 容 复制 至 serec 文件 夹 中 都 将 置 入 最 新 设置 的 policy 中 。 
输入 下 列 命令 并 执行 测试 : 
./bin/hdfs dfs -copyFromLocal -/Documents/OnlineRetail.csv /user/ec 


图 1.18 显示 了 复制 结果 ， 正 如 预期 的 那样 ， 系 统 会 提示 ， 本 地 系统 中 尚 不 存在 足够 
的 集群 来 实现 EC。 但 这 也 使 我 们 了 解 到 所 欠缺 的 内 容 及 其 大 致 的 样子 。 


1. sridharalla$ ./bin/hdfs dfs -copyFromLocal ~/Documents/OnlineRetail.cs\ ec 
1379 WARN util.NativeCodeLoader: Unable to load native-hadoop library fi .. using builtin-java classes 


84 WARN erasurecode.ErasureCodeNative: ISA-L support is not available in your platform... using builtin-java codec 


copyFromLocal: File /user/ec/OnlineRetail.csv. COPYING. could only be written to 1 of the 6 required nodes for RS-6-3-1024k. There are 1 
datanode(s) running and no node(s) are excluded in this operation 


图 1.18 
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1.5.9 内 部 DataNode 平衡 器 


虽然 HDFS 一 般 具 有 在 集群 中 的 数据 节点 之 间 平 衡 数据 的 强大 功能 ， 但 这 通常 会 导 
致 数据 节点 内 的 磁盘 倾斜 。 例 如 ， 假 设 存在 4 个 磁盘 ， 其 中 两 个 磁盘 可 能 会 占用 大 部 分 
数据 ， 而 另外 两 个 磁盘 可 能 没有 得 到 充分 利用 。 考 虑 到 物理 磁盘 的 读 写 速度 较 慢 〈 例 如 
7200rpm 或 10000rpm) ， 这 种 数据 倾斜 往往 会 导致 较 差 的 性 能 。 使 用 节点 内 的 平衡 器 ， 
可 以 在 磁盘 之 间 重 新 平衡 数据 。 

对 此 ， 运 行 下 列 命 令 ， 并 在 某 个 DataNode 节点 上 调用 磁盘 平衡 机 制 : 


./bin/hdfs diskbalancer -plan 10.0.0.103 


图 1.19 显示 了 磁盘 平衡 器 命令 的 输出 结果 。 


0.0.0.103 threshold used: 10.0 


图 1.19 
1.5.10 ”安装 时 间 轴 服务 v.2 


在 1.3.2 节 中 曾 讨 论 到 ，v.2 始终 选择 Apache HBase 作为 主 备份 存储 ， 因 为 Apache 
HBase 可 以 很 好 地 扩展 到 更 大 的 集群 ， 同 时 继续 保持 良好 的 读 / 写 响应 时 间 。 
关于 时 间 轴 服务 v.2 存储 的 准备 工作 ， 需 要 执行 下 列 各 项 步骤: 
(1) 设置 HBase 集群 。 
(2) 启用 协 处 理 器 。 
(3) 创建 时 间 轴 服务 v.2 的 模式 。 
下 面 对 每 个 步骤 加 以 详细 解释 。 
1. 设置 HBase 集群 


首先 需要 选择 一 个 Apache HBase 作 为 存储 集群 .支持 时 间 轴 服务 v.2 的 Apache HBase 
版 本 为 1.2.6。 注 意 , 1.0.x 版 本 将 不 再 支持 时 间 轴 服务 v.2; 而 后 续 HBase 版 本 对 此 则 未 
经 测试 。 

如 果 打算 为 Apache HBase 集群 提供 一 个 简单 的 部 署 配置 文件 ， 并 实现 轻 量 级 的 数据 
加 载 ， 但 数据 需要 跨 节 点 往复 持久 化 ， 那 么 可 以 考虑 使 用 HDFS 部 署 模式 的 独立 HBase。 
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读者 可 访问 http://mirror.cogentco.com/pub/apache/hbase/1.2.6/ F # Apache HBase， 如 
图 1.20 所 示 。 


E CQ mirror.cogentco.com/pub/apache/hbase/1.2.6/ 


Index of /pub/apache/hbase/1.2.6 


Name Last modified Size Description 


9 Parent Directory = 

1.2.5 1.2.6RCO compat report.html 2017-05-29 02:37 24K HBase: rol/1.2.5/d7b05f7 to 1.2.6RC0/2f9b9e1 compatibility report 
心 hbase-1.2.6-bin.tar.gz 2017-05-29 10:36 100M 
心 base-1.2.6-src.tar.gz 2017-05-29 10:36 15M 


图 1.20 
随后 ， 可 将 hbase-1.2.6-bin.tar.gz 下 载 至 本 地 机 器 上 ， 并 利用 下 列 命令 解压 HBase 二 
进 制 文件 : 
tar -xvzf hbase-1.2.6-bin.tar.gz 
图 1.21 显示 了 解压 后 HBase 中 的 相关 内 容 。 


Moogie:- sridharalla$ cd hbase-1.2.6 
Moogie:hbase-1.2.6 sridharalla$ ls 


CHANGES . LICENSE. txt README . txt hbase-webapps 
LEGAL NOTICE .txt bin lib 


图 1.21 

这 表示 为 独立 HBase 设置 上 的 一 个 变化 版 本 ， 并 将 所 有 HBase 守护 进程 运行 在 一 个 
JVM 中 ， 而 不 是 持久 化 到 本 地 文件 系统 中 〈 持 久 化 至 HDFS 实例 中 ) 。 写 入 HDFS (数 
据 于 其 中 被 复制 ) 可 确保 数据 在 节点 间 实 现 往复 持久 化 。 当 配置 这 一 独立 的 变化 版 本 时 ， 
可 编辑 hbasesite.xml 文件 ， 设 置 hbase.rootdir 并 指向 HDFS 实例 中 的 某 个 目录 ， 随 后 将 
hbase.cluster.distributed 设置 为 false。 

hbase-site.xml 文件 如 下 所 示 。 作 为 一 项 属性 ， 其 中 包含 了 针对 之 前 安装 的 本 地 集群 
的 hdfs 端口 9000， 和 否则 ， 将 不 会 安装 HBase 集群 。 


<configuration> 
<property> 
<name>hbase . rootdir</name> 
<va1ue>hdfs : / /1oca1host : 9000/hbase</value> 
</property> 
<property> 
<name>hbase.cluster.distributed</name> 
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<value>false</value> 
</property> 
</configuration> 


下 一 步 是 启动 HBase。 对 此 ， 可 使 用 start-hbase.sh 脚本 , 如 下 所 示 : 


./bin/start-hbase.sh 


图 1.22 显示 了 刚刚 安装 的 HBase 集群 。 


€ > CO localhost16010/master-status 


APACHE 


HBASE rm wes 


Master 10.0.0.103 


Region Servers 
Memory Requests Storefles ^ Compactons 

ServerName Start time 
10.0.0.103,57540,1524457767491 Mon Apr 23 00:29:27 EDT 2018 


Total: 


Backup Masters 


ServerName 


Total0 


Tables 


[AE System Tables Snapshots 


图 1.22 
图 1.23 显示 了 HBase 集群 设置 的 更 多 属性 ， 以 及 各 种 组 件 的 版 本 。 
— H. Apache HBase 处 于 就 绪 状 态 , 即 可 执行 后 续 各 项 步骤 , 下 面 分别 对 此 了 予以 解释 。 
2. 启用 协 处 理 器 
在 当前 版 本 中 ， 协 处 理 器 将 以 动态 方式 被 加 载 。 
对 此 ， 将 时 间 轴 服务 ,jar 从 HBase 加 载 处 复制 至 HDFS 中 。 默 认 的 HDFS 位 置 为 


/hbase/coprocessor。 
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€ > GC O ocalhost1601 


APACHE 


ar-status 


HBRSE oo e Localogs Debug Dump Metrics Dump 


Show Al Monitored Tasks BEREM Show Al RPC Handlor Tasks Show Active RPC Calis 


No tasks currently running on this node. 


Software Attributes 
Attribute Name 

HBase Version 

HBase Compiled 

HBase Source Checksum 
Hadoop Version 

Hadoop Compiled 

Hadoop Source Checksum 
ZooKeeper Client Version 
ZooKeeper Client Compiled 
Zookeeper Quorum 
Zookeeper Base Path 
HBase Root Directory 
HMaster Start Time 
HMaster Active Time 
HBase Cluster ID 


Load average 


例 如 : 


Value 

1.2.6, revision-Unknown 

Mon May 29 02:25:32 COT 2017, busbey 
7e8ceB3a848e252758e9dae1fbe779c9 
2.5.1、revision=2e18d179e4aB065b6a9f29cf2de9451891265cce 
2014-09-05T23:05Z, kasha 
6424fcab95bfWf8337780a181ad7c78 
3.4.6, revision=1569965 

02/20/2014 09:09 GMT 

localhost:2181 

/hbase 

hdfs://localhost:9000/hbase 

Mon Apr 23 00:29:26 EDT 2018 

Mon Apr 23 00:29:27 EDT 2018 
Bcaccife-fc23-4be1-bOdf-a0c9fBbB7be4 


2.00 


图 1.23 


‘Show Client Operations 


View as JSON 


Description. 

HBase version and revision 

When HBase version was compiled and by whom 
HBase source MD5 checksum 

Hadoop version and revision 

When Hadoop version was complied and by whom 
Hadoop source MDS checksum 


ZocKeeper client version and revision 


When ZooKesper client version was compiled 


Addresses of all registered ZK servers. For more, see zk 
Root node of this cluster in ZK. 

Location of HBase home directory 

Date stamp of when this HMaster was started 

Date stamp of when this HMaster became active 
Unique identifier generated for each HBase cluster 


Average number of regions per regionserver. Naive com 


hadoop fs -mkdir /hbase/coprocessor hadoop fs -put hadoop-yarn- 
servertimelineservice-hbase-3.0.0-alphal-SNAPSHOT.jar /hbase/coprocessor/ 
hadoopyarn-server-timelineservice.jar 


为 了 在 不 同 的 HDFS 处 放置 JAR， 还 存在 一 个 称 之 为 yarn.timeline-service.hbase. 


coprocessor jar.hdfs.location 的 YARN 配置 设置 项 ， 如 下 所 示 : 


<property> 


<name>yarn.timeline-service.hbase.coprocessor.jar.hdfs.location</name> 


<value>/custom/hdfs/path/jarName</value> 


</property> 


相应 地 ， 可 使 用 模式 生成 器 工具 创建 时 间 轴 服务 模式 。 要 做 到 这 一 点 ， 还 需要 确保 
所 有 的 jar 都 被 正确 地 找到 ， 如 下 所 示 : 


export 


T 


HADOOP CLASSPATH-$HADOOP CLASSPATH:/Users/sridharalla/hbase-1.2.6/1ib/:/ 
Users/sridharalla/hadoop-3.1.0/share/hadoop/yarn/timelineservice/ 
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一 旦 修正 了 类 路 径 ， 即 可 使 用 一 个 简单 的 命令 创建 HBase 模式 / 表 , 如 下 所 示 


-/bin/hadoop 
org.apache.hadoop.yarn.server.timelineservice.storage.TimelineSchemaCreator 
-create -skipExistingTable 


图 1.24 显示 了 利用 上 述 命令 生成 的 HBase 模式 。 


IC TO tecathost-16010/master-status 
RAPAcCHE 
EE Home Tae Dotais Local Logs Log Love 


Tables 


m System Tables Snapshots 


5 tabiofs) In set. [etas] 


Namespace Table Name Description 


prod timelineservice.app Now 3 prod.tmolineservice.app. flow , (TABLE ATTRIBUTES => (METADATA => 
('KeyPreficiegionSpitPolicy prefix Jength! => 4., SPLIT. POUCY' => 
org apache hadoop hbase.regionserver KeyPrefisRegionSplitPolcy |), (NAME => 'm', BLOOMFILTER => 
ROWCOL' 


prod imelineservice application. prod.tmelineservice application", (TABLE ATTRIBUTES => {METADATA => 
(KoyPreficRgionSpitPolicy prefax length => 4，SPUT_POUCY => 
'org apache hadoop hbase.regionserver KeyPrefixRegionSpiltPolicy'}, (NAME => 'c', BLOOMFILTER => 
ROWCOL), (NAME => ', BLOOMFILTER => ROWCOL'), (NAME => 'm', VERSIONS => "10000", TTL => 
2592000 SECONDS (30 DAYS)’, MIN VERSIONS => 1 り 


prod timelineservice.entity ‘prod.timalineservice entity’, (TABLE ATTRIBUTES => {METADATA =>fKeyPrefixReglonSpltPolicy prefix length 
= “4, ‘SPLIT_POLICY’ => 'org apache hadocp hbaseregionserverKeyPrefixReglonSpltPolicyj, (NAME => 'c', 
BLOOMFILTER => 'ROWCOL'), (NAME => 1 BLOOMFILTER => 'ROWCOL'), {NAME => 'm', VERSIONS => 
10000", TTL => '2582000 SECONDS (30 DAYS)’, MIN. VERSIONS => '1'} 


‘prod.timalineservice.flowactivity’, (NAME => ', BLOOMFILTER => 'ROWCOL’, VERSIONS => '2147489647', 
MIN VERSIONS => 1] 


prod tmolinesarvice.flowactivity 


prod.timolinesorvice subapplication 3 ‘prod. timelineservice subappication' (TABLE ATTRIBUTES => {METADATA => 
{ KeyPrefixRegionSpitPolicy. prefix Jength’ => 4，SPUT_POUCY' => 
org.apache hadoop hbase regionserverKeyPrefixRegionSplitPolicy ) (NAME => 'c', BLOOMFILTER => 
ROWCOL], (NAME => ©, BLOOMFILTER => 'ROWCOL), (NAME => im’, VERSIONS => "10000", TTL => 
2582000 SECONDS (30 DAYS), MIN. VERSIONS => '1') 


图 1.24 


3. 启用 时 间 轴 服务 v.2 
下 列 内 容 显示 了 启动 时 间 轴 服务 v.2 的 基本 配置 : 


<property> 
<name>yarn.timeline-service.version</name> 
<value>2.0f</value> 

</property> 


<property> 
<name>yarn.timeline-service.enabled</name> 
<value>true</value> 

</property> 


<property> 
<name>yarn.nodemanager .aux-services</name> 
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<value>mapreduce shuffle,timeline collector</value> 
</property> 


<property> 

<name>yarn.nodemanager.aux-services.timeline collector.class</name> 
<value>org.apache.hadoop. yarn.server.timelineservice.collector.PerNode 
TimelineCollectorsAuxService</value> 
</property> 


<property> 
<description> This setting indicates if the yarn system metrics is 

published by RM and NM by on the timeline service. </description> 
<name>yarn.system-metrics-publisher.enabled</name> 
<value>true</value> 

</property> 


<property> 
<description>This setting is to indicate if the yarn container events 
are published by RM to the timeline service or not. This configuration is 
for ATS V2. </description> 
«name»yarn.rm.system-metrics-publisher.emit-container-events«/name» 
<value>true</value> 
</property> 


除 此 之 外 ， 还 可 将 hbase-site.xml 配置 文件 添加 至 客户 端 Hadoop 集群 配置 中 ， 以 便 
将 数据 写 入 所 用 的 Apache HBase 集群 中 ; 或 者 , 出 于 同样 的 目的 (将 数据 写 入 HBase 中 )， 
可 将 yarn.timeline-service.hbase.configuration.file 设置 为 指向 hbase-site.xml 的 URL， 如 下 
Bras: 
<property> 
<description>This is an Optional URL to an hbase-site.xml configuration 
file. It is to be used to connect to the timeline-service hbase cluster. 
If it is empty or not specified, the HBase configuration will be loaded 
from the classpath. Else, they will override those from the ones present 
on the classpath. </description> 
<name>yarn.timeline-service.hbase.configuration.file</name> 
<value>file:/etc/hbase/hbase-site.xml</value> 
</property> 


(1) 运行 时 间 轴 服 务 v.2 
JA ResourceManager 和 节点 管理 器 , 并 加 载 新 的 配置 内 容 。 采 集 器 将 以 嵌入 的 方式 
在 资源 管理 器 和 节点 管理 器 中 启动 。 
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相应 地 , 时 间 轴 读 取 器 则 是 一 个 独立 的 YARN 守护 进程 , 并 通过 下 列 语法 予以 启动 : 


$ yarn-daemon.sh start timelinereader 


(2) 启动 MapReduce 并 写 入 时 间 轴 服务 v.2 
为 了 将 MapReduce 框架 数据 写 入 时 间 轴 服务 v.2， 可 启用 mapred-site.xml 中 的 下 列 
配置 : 
<property> 
<name>mapreduce.job.emit-timeline-data</name> 
<value>true</value> 
</property> 
时 间 轴 服务 仍 处 于 发 展 过 程 中 ， 因 而 用 户 仅 可 尝试 使 用 其 中 的 各 项 功能 ， 并 对 其 进 
行 测试 ， 而 不 是 在 产品 环境 中 加 以 使 用 。 对 此 ， 我 们 可 等 待 更 为 成 熟 的 版 本 ， 相 信 这 一 
天 很 快 就 会 到 来 。 


16 KË bg 
本 章 讨 论 了 Hadoop 3.x 中 的 新 特性 ， 以 及 针对 Hadoop 2.x 的 可 靠 性 和 性 能 方面 的 改 


进 措施 。 除 此 之 外 ， 本 章 还 考查 了 本 地 机 器 上 独立 Hadoop 集群 的 安装 过 程 。 
第 2 章 将 深入 讨论 大 数据 分 析 方 面 的 内 容 。 
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本 章 将 讨论 大 数据 分 析 ， 首 先 介 绍 一 些 普 遍 观 点 ， 随 后 将 深入 讨论 数据 分 析 所 用 的 
一 些 常 见 技术 。 本 章 将 向 读者 介绍 大 型 数据 集 的 检测 过 程 ， 以 发 现 数据 值 的 模式 ， 进 而 
获得 有 价值 的 观点 。 本 章 将 会 特别 关注 数据 的 7 个 “V”。 除 此 之 外 ， 还 将 学 习 与 数据 分 
析 和 大 数据 相关 的 知识 、 所 面临 的 挑战 及 其 在 分 布 式 计算 中 的 梳理 方式 。 最 后 ， 本 章 还 
将 通过 Hive 和 Tableau 展示 一 些 较 为 常用 的 技术 。 

本 章 主要 涉及 以 下 主题 : 
数据 分 析 简 介 。 
大 数据 简介 。 
基于 Apache Hadoop 的 分 布 式 计 算 。 
MapReduce 框架 。 
Hive。 


ロロ ロロ ロロ 


Apache Spark。 
2.1 数据 分 析 简 介 


数据 分 析 是 在 检查 数据 时 应 用 定性 和 定量 技术 的 过 程 ， 其 目的 是 提供 有 价值 的 见解 。 
当 使 用 各 种 技术 和 概念 时 ， 数 据 分 析 可 以 为 探究 性 数据 分 析 EDA) 提供 手段 ， 也 可 以 
为 验证 性 数据 分 析 (CDA) 提供 结论 。EDA 和 CDA 可 视 为 数据 分 析 的 基本 概念 ， 读 者 
应 理解 二 者 间 的 差别 。 

EDA 涉及 用 于 考查 数据 的 方法 、 工 具 和 技术 ， 目 的 是 在 数据 中 找到 相关 模式 ， 以 及 
数据 的 各 个 元 素 之 间 的 关系 。CDA 则 包含 了 相关 的 方法 、 工 具 和 技术 ， 同 时 基于 各 种 假 
设 和 统计 学 技术 ， 或 者 对 数据 简单 的 观察 ， 进 而 针对 特定 问题 提供 某 种 简介 或 结论 。 

一 旦 数据 被 认为 已 处 于 就 绪 状 态 ， 数 据 科 学 家 就 可 以 使 用 SAS 等 统计 方法 对 其 进行 
分 析 和 探索 。 数 据 管理 也 成 为 数据 采集 和 数据 保护 过 程 中 的 一 个 重要 因素 。 此 外 ， 另 一 
个 不 太 为 人 所 知 的 角色 是 数据 管理 员 。 数 据 管 理 员 专 注 于 字 节 级 别 的 数据 ， 确 切 地 说 ， 
数据 源 自 哪里 、 数 据 发 生 的 各 种 转换 ， 以 及 基于 数据 列 或 字段 的 业务 需求 。 

业务 中 的 各 种 实体 可 能 会 采取 不 同 的 方式 处 理 地 址 ， 例 如 : 


123 N Main St vs 123 North Main Street. 
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然而 ， 当 前 分 析 过 程 取决 于 获得 正确 的 地 址 字段 ， 否 则 这 两 个 地 址 将 视 为 不 同 ， 且 
分 析 结 果 的 准确 性 无 法 保持 一 致 。 根 据 分 析 人 员 从 数据 仓库 中 获取 的 数据 ， 分 析 处 理 过 
程 始 于 数据 采集 过 程 ， 并 收集 各 个 部 门 〈 包 括 销 售 、 市 场 营 销 、 员 工 、 工 资 和 人 力 资 源 
等 ) 中 的 各 类 数据 。 这 里 ， 数 据 管理 员 和 管理 团队 非常 重要 ， 以 确保 收集 到 正确 的 数据 ， 
以 及 任何 被 视 为 机 密 或 私有 的 信息 不 会 意外 泄漏 ， 即使 当前 终端 用 户 均 为 公司 内 部 雇员 。 
此 处 , 在 分 析 中 包含 社会 安全 号 码 (SSN) 或 完整 的 地 址 并 非 是 一 类 最 佳 方案 ， 这 会 对 组 
织 机 构 带 来 大 量 的 问题 。 

其 间 ， 需 要 对 数据 的 质量 进行 把 控 ， 以 保证 所 采集 、 设 计 的 数据 的 准确 性 ， 进 而 满 
足 数据 科学 家 的 要 求 。 在 这 一 阶段 ， 主 要 的 目标 是 发 现 和 修复 数据 质量 方面 的 问题 ， 此 
类 问题 将 影响 到 分 析 需 求 的 准确 性 。 其 中 ， 较 为 常见 的 技术 是 对 数据 进行 分 析 和 清理 清 
洗 ， 以 确保 数据 集中 的 信息 是 一 致 的 ， 同 时 删除 任何 错误 和 重复 记录 。 

因此 ， 数 据 分 析 应 用 程序 可 通过 多 种 规则 、 团 队 和 技能 组 予以 实现 。 分 析 应 用 程序 
可 全 程 生成 相关 报告 ， 并 自动 触发 业务 操作 。 例 如 ， 我 们 可 以 简单 地 创建 每 天 的 销售 报 
告 ， 并 在 每 天 上 午 8 点 以 电子 邮件 的 方式 发 送 至 管理 层 。 除 此 之 外 ， 还 可 与 业务 管理 应 
用 程序 或 某 些 定 制 的 股票 交易 程序 进行 集成 ， 进 而 执行 相关 操作 ， 例 如 购 入 、 卖 出 或 者 
对 股票 市 场 中 的 某 些 操作 予以 警告 。 此 外 ， 还 可 尝试 刊登 一 些 新 闻 文 章 ， 或 者 社交 媒体 
信息 ， 并 对 决策 制定 产生 进一步 的 影响 。 

数据 可 视 化 则 是 数据 分 析 中 的 一 个 重要 组 成 部 分 。 通 常 ， 当 人 们 看 到 大 量 的 测算 结 
果 和 计算 过 程 时 , 往往 难以 理解 数字 的 真正 含义 。 相应 地 ,人 们 越 来 越 依赖 商业 智能 BID 
TA, 例 如 Tableau 和 QlikView 等 ， 进 而 考查 并 分 析 数 据 。 当 然 ， 某 些 大 规模 的 可 视 化 
行为 ， 例 如 展示 Uber 在 全 国 范围 内 的 车 辆 分 布 ， 或 者 纽约 城中 自来水 供应 的 热力 图 ， 仍 
然 需 要 使 用 更 加 专业 的 定制 应 用 程序 或 工具 予以 构建 。 

管理 和 分 析 数 据 一 直 是 行业 中 不 同 规模 的 机 构 所 面临 的 挑战 。 各 家 企业 一 直 在 努力 
寻找 一 种 实用 的 方法 来 获取 客户 、 产 品 和 服务 的 信息 。 

对 于 一 家 公司 来 说 ， 对 小 宗 购 物 进 行 处 理 并 非 难事 ;但 随 着 时 间 的 推移 ， 公 司 市 场 
行为 将 呈现 增长 之 势 。 此 时 ， 事 态 也 变 得 越 加 复杂 ， 例 如 品牌 信息 、 社 交 媒 体 、 互 联网 
购物 等 。 对 此 ， 我 们 需要 制订 不 同 的 解决 方案 。 对 于 Web 开发 、 组 织 行为 、 价 格 机 制 、 
社交 网 络 以 及 市 场 划分 ， 当 处 理 管理 -组 织 行为 时 ， 以 及 尝试 从 数据 中 获取 某 种 答案 时 ， 
数据 的 多 样 化 也 使 问题 趋 于 复杂 化 。 


2.2 大 数据 简介 


Twitter、Facebook、Amazon、Verizon、Macy's 和 Whole Foods 等 多 家 公司 均 采 用 了 
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数据 分 析 运 行 期 日 常 业务 ， 并 根据 分 析 结 果 制 定 诸多 决策 。 下 面 将 对 采集 的 数据 类 型 、 
数据 的 采集 量 ， 以 及 数据 的 应 用 方式 加 以 分 析 。 

下 面 考查 一 个 零售 店 示例 。 假 设 商 店 着 手 扩大 其 业务 ， 并 计划 开设 数 百 家 分 店 ， 情 
況 又 当 如何 ? 不 难 想象 ， 与 一 家 店铺 相 比 ， 业 务 数 据 的 采集 和 存储 规模 必然 比 之 前 高 出 
数 百倍 ， 且 不 再 存在 独立 运作 的 业务 行为 。 这 其 中 将 会 涉及 很 多 信息 ， 例 如 本 地 新 闻 、 
Twitter 新 闻 、Yelp 评论 、 顾 客 投诉 ， 调 查 活动 、 来 自 其 他 商店 的 竞争 、 当 地 人 口 或 经 济 
的 变化 ， 等 等 。 所 有 这 些 额外 的 数据 都 有 助 于 我 们 更 好 地 理解 客户 行为 和 收益 模型 。 

如 果 针 对 商店 停车 设施 的 负面 消息 越 来 越 多 ， 那 么 ， 我 们 可 对 此 进行 分 析 并 采取 适 
当 措施 ， 例 如 发 放 停 车 证 ;或 者 与 城市 公共 交通 部 门 进行 协商 以 实现 更 多 班次 的 火车 和 
公交 车 。 随 着 数据 的 种 类 和 数量 不 断 增加 ， 在 提供 了 较 好 的 数据 分 析 样 本 的 同时 ，IT 部 
门 也 面临 着 巨大 的 挑战 一 一 需要 存储 、 处 理 、 分 析 全 部 数据 。 实 际 上 ，TB 级 的 数据 目前 
已 经 十 分 常见 。 

每 天 ， 我 们 都 会 生成 2EB 字 节 的 数据 。 据 估计 ， 仅 最 近 几 年 就 产生 了 90% 以 上 的 数 
据 。 数 据 量 单位 关系 如 下 所 示 : 

1 KB = 1024 Bytes 

1 MB = 1024 KB 

1 GB = 1024 MB 

1 TB = 1024 GB~1,000,000 MB 

1 PB = 1024 TB~1,000,000 GB~1,000,000,000 MB 

1 EB = 1024 PB~1,000,000 TB~1,000,000,000 GB~1,000,000,000,000 MB 

自 20 世纪 90 年 代 以 来 ， 如 此 大 量 的 数据 以 及 对 数据 理解 方面 的 需求 ， 催 生 了 大 数 
据 这 一 术语 。 

2001 年 , 当时 在 Meta Group Inc 咨询 公司 (后 被 Gartner 所 收购 ) 担任 分 析 师 的 Doug 
Laney 提出 了 多 样 性 、 速 度 和 容量 这 3 个 概念 ( 即 3 个 “V”) 。 当 前 ， 在 上 述 3 个 “V?” 
的 基础 上 又 增加 了 数据 的 准确 性 ， 即 4 个 “V”。 

下 列 内 容 介绍 了 大 数据 的 4 个 “V”， 进 而 描述 大 数据 的 各 种 特性 。 


2.2.1 数据 的 多 样 性 


数据 可 从 多 种 资源 处 获得 ， 例 如 气象 传感器 、 车 辆 传感器 、 人 口 普 查 数据 、Facebook 
的 更 新 数量 、Tweet 的 评论 数量 、 交 易 数 量 、 销 售 额 以 及 市 场 份额 ， 其 中 包含 了 结构 化 和 
非 结 构 化 的 数据 格式 。 另 外 ， 数 据 类 型 也 不 一 而 同 ， 例 如 二 进 制 、 文 本 、JSON 和 XML. 
而 多 样 化 特征 仅仅 是 数据 的 冰山 一 角 。 
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222 ”数据 的 速度 


数据 可 能 来 自 数据 仓库 、 批 处 理 模式 的 存档 文件 、 准 实时 更 新 数据 ， 或 者 源 自 Uber 
打车 软件 的 实时 更 新 数据 。 这 里 ， 速 度 是 指 生 成 数据 的 增加 速度 ， 以 及 关系 数据 库 处 理 、 
存储 和 分 析 数 据 时 的 增 速 。 


223 ”数据 的 容量 


数据 可 以 收集 并 存储 1 小 时 、1 天 、 1 人 月 、 1 年 或 10 年 。 对 于 许多 公司 来 说 ， 数 据 


的 规模 已 经 增长 至 数 百 
之 所 以 庞大 的 部 分 原因 


224 数据 的 准确 
我 们 可 以 对 数据 进 


TB 这 一 级 别 。 相 应 地 ， 数 据 容量 指 的 是 数据 规模 ， 这 也 是 大 数据 


性 
行 分 析 并 以 此 获得 具体 可 行 的 解决 方案 。 但 考虑 到 数据 源 和 数据 


类 型 的 多 样 性 ， 因 而 很 难保 证 数据 的 正确 性 和 准确 性 。 
图 2.1 展示 了 大 数据 中 的 4 个 “V”。 
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Millions of weather sensors 
100 sensors per car 


+4 Billion videos 


illion pieces of content 


Volume of Data Veracity of Data 


average of 100 TBs per 


+40,000 EBs of ddata 


2:5 EBS per day 3396 dont trust the data 


Trillions lost due to bad 


compan 
pany analytics 


图 2.1 


为 了 进一步 对 数据 加 以 理解 ， 并 将 数据 分 析 过 程 应 用 至 大 数据 中 ， 我 们 需要 扩展 数 
据 分 析 这 一 概念 ， 并 以 更 大 的 规模 处 理 大 数据 中 的 4 个 “V”。 其 间 ， 不 仅 数据 分 析 的 工 
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具 、 技 术 和 方法 发 生 了 变化 ， 处 理 问题 的 方式 也 将 有 所 不 同 。 假 设 兽 采 用 SQL 数据 库 处 
HE 1999 年 业务 数据 。 当 今 ， 对 于 同一 业务 ， 数 据 处 理 需 要 使 用 到 分 布 式 SQL。 此 类 数据 
库 具 有 可 伸缩 性 且 适 用 于 大 数据 环境 。 

之 前 所 描述 的 4 个 “V?” 无 法 满足 大 数据 分 析 的 各 项 功能 和 需求 ， 因 此 ， 现 在 更 常 听 
到 的 则 是 7 个 “V”。 


2.2.5 数据 的 可 变性 


数据 的 可 变性 指 的 是 含义 不 断 变化 的 数据 。 很 多 时 候 ， 我 们 需要 开发 十 分 复杂 的 程 
序 ， 以 便 能 够 理解 它们 的 上 下 文 ， 并 解析 它们 的 确切 含义 。 


2.26 ”可视化 


当 数 据 处 理 完毕 后 需要 以 可 读 取 、 可 访问 的 方式 呈现 时 ， 可 视 化 将 以 图 像 的 方式 解 
决 此 类 问题 。 


22.7 ”数值 


大 数据 的 数量 十 分 庞大 ， 且 每 天 都 处 于 增长 状态 ; 同时 ， 数 据 也 处 于 杂乱 无 章 、 不 
断 变化 的 状态 ， 并 以 多 种 方式 呈现 于 我 们 面前 。 因 此 ， 如 果 不 执行 数据 分 析 和 可 视 化 操 
作 ， 此 类 数据 将 无 法 投入 使 用 。 


2.3 使用 Apache Hadoop 的 分 布 式 计算 


今天 ， 智 能 冰箱 、 智 能 手表 、 手 机 、 平 板 电脑 、 笔 记 本 电脑 、 机 场 的 自助 终端 、 自 
动 取款 机 等 已 十 分 常见 ， 在 这 些 设备 的 帮助 下 ， 我 们 的 生活 也 发 生 了 质 的 变化 。 此 外 ， 我 
们 已 经 习惯 了 使 用 Instagram、 Snapchat, Gmail, Facebook, Twitter 和 Pinterest 等 应 用 程序 ， 
这 些 应 用 程序 已 成 为 日 常生 活 中 不 可 缺少 的 内 容 ;， 而 云 计算 则 进一步 引入 了 以 下 概念 

O ”作为 服务 的 基础 设施 。 

QO ”作为 服务 的 平台 。 

D ”作为 服务 的 软件 。 

其 背后 的 思想 是 可 伸缩 的 分 布 式 计算 ， 这 也 使 得 存储 和 处 理 PB 级 别 的 数据 成 为 可 能 : 

口 1EB=1024 PB (相当 于 5 千 万 部 蓝光 电影 ) 。 

口 1PB=1024TB (相当 于 50000 部 蓝光 电影 ) 。 
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口 1TB=1024GB (相当 于 50 部 蓝光 电影 ) 。 

1 部 蓝光 电影 的 平均 容量 一 般 在 20GB 左右 。 

当今 ， 分 布 式 计算 已 不 再 是 新 鲜 事物 ， 几 十 年 来 ， 人 们 对 分 布 式 计算 的 研究 从 未 停 
止 ， 主 要 出 现 于 一 些 科研 机 构 和 商业 公司 中 。 几 十 年 前 ， 大 规模 并 行 处 理 (MPP)〉 即 在 
海洋 学 、 地 震 监 测 和 空间 探索 等 领域 有 所 应 用 。 多 家 公司 (例如 Teradata) 已 实现 了 MPP 
平台 ， 并 发 布 了 相关 的 商业 产品 和 应 用 程序 。 

谷歌 和 亚马逊 等 科技 公司 将 可 扩展 分 布 式 计算 的 商业 领域 推 向 了 一 个 新 的 发 展 阶 
段 ， 最 终 ， 伯 克利 大 学 推出 了 Apache Spark。 随 后 ， 谷 歌 公 司 发 表 了 一 篇 关于 MapReduce 
和 和 谷歌 文件 系统 (GFS) 的 论文 ， 将 分 布 式 计算 的 原理 展现 在 我 们 每 个 人 面前 。 当 然 ， 
Doug Cutting 则 更 加 令 人 敬佩 ,他 实现 了 谷歌 白皮书 中 的 概念 ， 并 向 全 世界 展示 了 他 的 作 
品 一 一 Hadoop。Apache Hadoop 框架 是 一 个 采用 Java 编写 的 开源 软件 框架 ， 该 框架 所 涉 
及 的 两 个 主要 领域 是 存储 和 处 理 。 对 于 存储 而 言 ，Apache Hadoop 框架 采用 了 Hadoop 分 布 
式 文件 系统 (HDFS) ， 该 系统 基于 2003 年 所 发 表 的 GFS 论文 。 对 于 处 理 和 计算 来 说 ， 该 
框架 依赖 于 MapReduce， 它 是 基于 2004 年 12 月 发 表 的 一 篇 关于 MapReduce 的 谷歌 论文 。 
当前 , MapReduce 框架 已 从 V1( 基 于 JobTracker 和 TaskTracker) 发 展 至 V2( 基 于 YARN) 。 


2.4 MapReduce 框架 


MapReduce 是 一 个 框架 ， 用 于 计算 Hadoop 集群 中 的 大 量 数据 。MapReduce 使 用 了 
YARN 以 及 容器 并 作为 任务 调度 mapper 和 reducer。 
图 2.2 展示 了 一 项 MapReduce 任务 ， 用 于 计算 单词 出 现 的 频率 。 


Input Splitting Mapping Shuffling Reducing 


Hadoop Cool > Hadoop,1 | Hadoop, 1 Hadoop,3 
Cool,1 
Hadoop,1 


Hadoop Cool 
Wow Hadoop I——» Wow Hadoop 
Cool Hadoop Wow 


Hadoop,3 
> Cool,2 
Wow,2 


Cool Hadoop Wow " "d 
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MapReduce 与 YARN 紧密 合作 ， 对 作业 以 及 作业 中 的 各 项 任务 进行 规划 ， 请 求 集群 
管理 器 《资源 管理 器 ) 中 的 计算 资源 ， 调 度 集群 计算 资源 上 的 任务 执行 ， 并 于 随后 执行 
相关 规划 。 当 使 用 MapReduce 时 ， 可 以 读 写 不 同 格 式 、 不 同类 型 的 文件 ， 并 以 分 布 方式 
执行 非常 复杂 的 计算 。 我 们 将 在 第 3 章 的 MapReduce 框架 中 看 到 更 多 这 方面 的 内 容 。 


2.5 Hive 


Hive 在 MapReduce 框架 上 提供 了 一 个 SQL 抽象 层 ， 同 时 包含 了 一 些 优化 措施 。 鉴 
于 MapReduce 框架 中 编写 代码 的 复杂 度 ， 因 而 这 一 行为 不 可 或 缺 。 例 如 ， 特 定 文件 中 简 
单 的 记录 计数 工作 至 少 需要 几 十 行 代码 ， 因 而 工作 效率 相对 低下 。 通 过 将 SQL 语句 中 的 
逻辑 封装 至 MapReduce 框架 代码 中 ，Hive 实现 了 对 MapReduce 代码 的 抽象 ， 并 可 在 后 
端 自动 生成 和 执行 。 对 于 有 效 数 据 的 处 理 ， 这 节省 了 大 量 的 时 间 ， 而 无 须 针 对 每 项 任务 、 
每 次 计算 编写 代码 。 图 2.3 显示 了 Hive 的 体系 结构 。 


Hive 架构 


HIVE 


Command Line Interface | Interface Thrift Server 


Driver 
(Compiler, Optimizer, Executor) 


HADOOP 
(MAP-REDUCE +HDFS) 


Job Name 
Tracker Node 
Data Node 
* 
Tracker ン 
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Hive 并 不 是 为 在 线 交 易 处 理 而 设计 的 ， 也 不 提供 实时 查询 和 行 级 更 新 操作 。 
本 节 将 考查 Hive 及 其 执行 数据 分 析 时 的 应 用 方式 。 读 者 可 访问 https://hive.apache.org/ 
downloads.html 下 载 Hive， 如 图 2.4 所 示 。 


€ > Ca secure |https:/hive.apache.org/downloads.html 


GENERAL DOWNLOADS 


Home 
Downloads 
m= Releases may be downloaded from Apache mirrors: 


MUR d Download a release now! 

DOCUMENTATION 

Language Manual On the mirror, all recent releases are available, but are not guaranteed to be stable. For stable releases, look in the stable directory. 
Javadoc 

Wiki 

COMMUNITY News 

Becoming a Committer 

Edit Website 3 April 2018 : release 2.3.3 available 

How to Contributo. 

Resources for contributors This release works with Hadoop 2.x.y You can look at the completo JIRA change log for this release. 

Issue Tracking 
Mailing Lists 
People 
DEVELOPMENT 


Buids 24 October 2017 : release 2.3.1 available 
Design Docs 


18 November 2017 : release 2.3.2 available 


This release works with Hadoop 2.x.y You can look at the complete JIRA change log for this release. 


This release works with Hadoop 2.x y You can look at the complete JIRA change log for this release. 


Precommk Paich Testing 25 July 2017 : release 2.2.0 available 
Version Control 


PMC This release works with Hadoop 2.x.y You can look at the complete JIRA change log for this release. 


图 2.4 
击 下 载 链接 ， 并 查看 可 供 下 载 的 文件 ， 如 图 2.5 所 示 。 


を © |© mirror.cc.columbia.edu/pub/software/apache/hive/hive-2.3.3/ 
Index of /pub/software/apache/hive/hive-2.3.3 


Last modified Size Description 


Parent Directory - 


apache-hive-2.3.3-bin.tar.gz 02-Apr-2018 15:00 221M 


apache-hive-2.3.3-src.tar.gz 02-Apr-2018 15:00 21M 


Apache/2.2.22 (Fedora) Server at mirror.cc.columbia.edu Port 80 


图 2.5 
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2.5.1 


下 载 并 解压 Hive 二 进 制 文件 


下 面 将 解压 下 载 后 的 二 进 制 文件 ， 并 对 其 进行 配置 ， 如 下 所 示 : 


tar 


-xvzf apache-hive-2.3.3-bin.tar.gz 


随后 ， 创 建 hive-site.xml 文件 ， 如 下 所 示 : 


cd 
vi 


apache-hive-2.3.3-bin 
conf/hive-site.xml 


在 属性 列表 上 方 ， 复 制 -粘贴 下 列 内 容 ， 


«pr 
<n 


operty» 
ame>system: java.io.tmpdir</name> 


<value>/tmp/hive/java</value> 


«/p 


roperty» 


TE hive-site.xml 文件 底部 ， 添 加 下 列 属性 : 


«pr 
<n 


operty> 
ame>hive .metastore.local</name> 


<value>TRUE</value> 


</p 
<pr 
<n. 


roperty> 
operty> 
ame>hive .metastore.warehouse.dir</name> 


<value>/usr/hive/warehouse</value> 


</ 


property» 


接 下 来 , 利用 Hadoop 命令 生成 hive 所 需 的 HDFS 路 径 ， 如 下 所 示 : 


cd hadoop-3.1.0 


EB 
-/b 


2.5.2 


in/hadoop fs -mkdir -p /usr/hive/warehouse 
in/hadoop fs -chmod gtw /usr/hive/warehouse 


安装 Derby 


Hive 在 MapReduce 框架 的 基础 上 工作 ， 并 使 用 表 和 模式 为 幕后 运行 的 MapReduce 


fer ed 


E mapper 和 reducer。 为 了 维护 与 数据 相关 的 元 数据 ，Hive 使 用 了 一 种 较为 简单 


的 数据 库 ， 即 Derby。 下 面 讨论 Derby 的 安装 过 程 及 其 在 Hive 中 的 应 用 方式 。 对 此 ， 首 
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先 可 访问 https://db.apache.org/derby/derby downloads.html 下載 Derby， 如 图 2.6 所 示 。 


CE 
apache > db» 


Apache Derby fW ier" 


Home Quick Stat Dewniead Community Documentation Resources 


Download 
rene 
ee Apache Derby: Downloads 


For Java S and Higher 
Search the she wth e For Java 6 and Higher 


For Java 1.3 and Higher 


Der 
Change History 


For Java 8 and Higher 


+ 10.14.2.0 (May 3, 2018 / SVN 1828579) 
・ 103,1 (October 25, 2016 / SVN 1766613) 


For Java 6 and Higher 


・ 10.12.14 (October 11, 2015 / SVN 1704137) 
* 1041,11 (August 26, 2014 / SVN 1616546) 


For Java 1.4 and Higher. 


・ 10,10.2.0 (Ap 15, 2014 / SVN 1582446) 
* 100.11 (Ar 15, 2013 / SVN 1458268) 

+ 10,9.1.0 (June 25, 2012 / SVN 1344872) 

・ 108,10 (November 16, 2012 / SVN 1405108) 
・ 10\8.2.2 (October 24, 2011 / SVN 1181258) 

・ 108.2 (Arl 25, 2011 / SVN 1095077) 

・ 10.2.1.1 (December 14, 2010 / SVN 1040133) 
* 1045.1 (Oct 5, 2010 / SVN 999685) 

・ 10.6.1.0 (May 19, 2010 / SVN 938214) 

* 10510 (August 21, 2009 / SVN 802917) 


图 2.6 

具体 安装 步骤 解释 如 下 : 

(1) 利用 下 列 命令 解压 Derby: 

tar -xvzf db-derby-10.14.1.0-bin.tar.gz 

(2) 随后 将 目录 修改 为 derby， 并 创建 一 个 名 为 data 的 目录 。 实 际 上 ， 此 处 需要 执 

行 多 个 命令 ， 如 下 所 示 : 

export HIVE HOME=<YOURDTRECTORY>/apache-hive-2 . 3 . 3-bin 

export HADOOP HOME=<YOURDTRECTORY>/hadoop-3 . 1 . 0 

export DERBY _HOME=<YOURDIRECTORY>/db-derby-10.14.1.0-bin 

export PATH=$PATH:$HADOOP HOME/bin:$HIVE HOME/bin:$DERBY HOME/bin 
mkdir $DERBY HOME/data 


cp $DERBY HOME/lib/derbyclient.jar SHIVE HOME/lib 
cp $DERBY HOME/lib/derbytools.jar $HIVE HOME/lib 


(3) 利用 下 列 命令 启动 Derby 服务 器 : 


nohup startNetworkServer -h 0.0.0.0 


(4) 生成 并 初始 化 derby 实例 ， 如 下 所 示 : 


schematool -dbType derby -initSchema --verbose 
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(5) 打开 hive 控制 台 ， 如 下 所 示 : 


hive 


对 应 结果 如 图 2.7 所 示 。 


Moogie:apache-hive-2.3.3-bin sridharallo$ hive 

SLF4J: Class path contains multiple SLF4J bindings. 

SLF4: Found binding in [jar:file:/Users/sridharalla/apache-hive-2.3. 3-bin/lib/10g4j-slf4j-impl-2.6.2. jar!/org/sf4j/impl/StaticLoggerBin 
der.class] 

SLF4J: Found binding in [jar:file:/Users/sridharalla/hbase-1.2.6/1ib/slf4j-109412-1.7.5. jar!/org/sl f4j/impl/StaticLoggerBinder.class] 
SLF4J: Found binding in [jar:file:/Users/sridharalla/hadoop-3.1.0/share/hadoop/common/lib/slf4;-109412-1.7.25. jar!/org/slf4/impl/Static 
LoggerBinder.class] 

SLF4J: See http://mw.slf4j .org/codes.htmlmultiple bindings for an explanation. 

SLF4J: Actual binding is of type [org.apache. logging. s1f4j. Log4;jLoggerFactory] 


Logging initialized using configuration in jar: file: /Users/sridharalla/apache-hive-2.3.3-bin/lib/hive-comon-2.3.3. jar! /hive-1094j2.prope 
rties Async: true 

Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spa 
rk, tez) or using Hive 1.X releases. 

hive> | 


2.5.8 使 用 Hive 


HX RUE PET IR. ARACEAE TSAR, PIA. WU RIZ. 
利用 PARTITIONED BY 子 句 ， 可 根据 1 列 或 多 列 对 表 进 行 划分 。 而 且 ， 表 或 划分 结果 可 
利用 CLUSTERED BY 子 句 进行 分 组 , 数据 可 通过 SORT BY 在 桶 中 进行 排序 。 具体 如 下 。 

O x: 类 似 于 RDBMS 并 包含 了 行 和 表 。 

QU 分区 : Hive 表 可 包含 多 个 分 区 ， 并 映射 至 子 目录 和 文件 系统 中 。 

Q Wi: 数据 可 划分 至 Hive 中 的 桶 ， 并 可 在 底层 文件 系统 中 存储 为 分 区 中 的 文件 。 

Hive 查询 语言 提供 了 与 SQL 类 型 的 基本 操作 。 下 列 内 容 列 出 了 HQL 可 执行 的 一 些 
简单 任务 : 
口 创建 、 管 理 表 和 分 区 。 

口 “支持 多 种 关系 、 算 术 和 逻辑 运算 符 。 
Q 计算 函数 。 
a 
1. 


将 表 内 容 下 载 至 本 地 目录 中 ， 或 者 将 查询 结果 下 载 至 HDFS 目录 中 。 
创建 数据 库 


首先 需要 创建 数据 库 ， 并 装载 Hive 中 生成 的 所 有 表 。 该 步骤 易于 实现 ， 且 与 大 多 数 
数据 库 中 的 操作 类 似 ， 如 下 所 示 : 


create database mydb; 


图 2.8 显示 了 hive 控制 台中 的 查询 过 程 。 
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在 开始 使 用 刚刚 创建 的 数据 库 时 ， 须 生成 数据 库 所 需 的 表 ， 如 下 所 示 : 
use mydb; 
图 2.9 显示 了 hive 控制 台中 的 查询 过 程 。 


hive> create database mydb; 


htve> use mydb; 
OK OK 


Time taken: 4.007 seconds 


Time taken: 0.028 seconds 


图 2.8 图 2.9 


2. 创建 表 
当 数 据 库 创 建 完毕 后 ， 下 面 将 在 该 数据 库 中 创建 表 。 从 语法 上 讲 ， 表 的 创建 操作 与 
大 多 数 RDBMS (例如 Oracle» MySQL 等 数据 库 ) 类 似 ， 如 下 所 示 : 


create external table OnlineRetail ( 
InvoiceNo string, 
StockCode string, 
Description string, 
Quantity integer, 
InvoiceDate string, 
UnitPrice float, 
CustomerID string, 
Country string 

) ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ',' 
LOCATION '/user/normal'; 


图 2.10 显示 了 hive 控制 台中 的 输出 结果 。 


create external table OnlineRetail ( 
InvoiceNo string, 

StockCode string, 

Description string, 

Quantity integer, 

InvoiceDate string, 

UnitPrice float, 


CustomerID string, 
Country string 

) ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ',' 
LOCATION '/user/normal'; 


VW MV VUNUMUV VU CVM. 


OK 
Time taken: 0.434 seconds 


图 2.10 
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我 们 的 重点 并 不 在 于 查询 语句 的 语法 知识 ， 而 是 考查 如 何 利用 Stinger Initiative 改善 
查询 的 性 能 ， 如 下 所 示 : 


select count(*) from OnlineRetail; 
图 2.11 显示 了 hive 控制 台中 的 查询 过 程 。 


hive> select count(*) from OnlineRetail; 
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future 
(i.e. spark, tez) or using Hive 1.X releases. 
Query ID = sridharalla 20180423173731 d68999d5-5618-4170-a3a8-42be21851d51 
Total jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer (in bytes): 
set hive.exec.reducers bytes per. reducer-«number» 
In order to limit the maximum number of reducers: 
set hive.exec. reducers .max=<number> 
In order to set a constant number of reducers: 
set mapreduce. job. reduces=<number> 
Job running in-process (local Hadoop) 
2018-04-23 17:37:35,267 Stage-1 map = 100%, reduce = 100% 
Ended Job = job_1l0cal961179496_0001 
MapReduce Jobs Launched: 
Stage-Stage-1: HDFS Read: 10714480 HDFS Write: 9 SUCCESS 
Total MapReduce CPU Time Spent: 9 msec 
OK 
65500 
Time taken: 3.518 seconds, Fetched: 1 row(s) 


图 2.11 
2.54 SELECT 语句 的 语法 


在 Hive 中 , SELECT 的 语法 如 下 所 示 : 


SELECT [ALL | DISTINCT] select expr, select expr, ... 

FROM table reference 

[WHERE where condition] 

[GROUP BY col list] 

[HAVING having condition] 

[CLUSTER BY col list | [DISTRIBUTE BY col list] [SORT BY col list]] 
[LIMIT number] 


; 


其 中 , SELECT 表示 为 HiveSQL 中 的 投影 (projection) 运算 符 ， 具 体 如 下 : 
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Q SELECT 扫描 FROM 子 句 所 指定 的 表 。 

Q WHERE 生成 过 滤 条 件 。 

Q GROUP BY 生成 包含 多 个 列 的 列表 ， 并 指定 记录 的 聚合 方式 。 

口 CLUSTER BY, DISTRIBUTE BY 和 SORT BY 分 别 指定 了 排序 顺序 和 算法 。 
Q LIMIT 定义 了 所 检索 的 记录 数量 。 

示例 操作 如 下 所 示 : 


Select Description, count(*) as c from OnlineRetail group By Description 
order by c DESC limit 5; 


图 2.12 显示 了 hive 控制 台中 的 查询 过 程 。 


WHITE HANGING HEART T-LIGHT HOLDER 
REGENCY CAKESTAND 3 TIER 278 
HEART OF WICKER SMALL 224 


HAND WARMER BABUSHKA DESIGN 213 

SCOTTIE DOG HOT WATER BOTTLE 207 

Time taken: 3.206 seconds, Fetched: 5 row(s) 
A - 


图 2.12 


Xn: 


select * from OnlineRetail limit 5; 


图 2.13 显示 了 hive 控制 台中 的 查询 过 程 。 


hive> select * from OnlineRetail limit 5; 

OK 

InvoiceNo StockCode Description NULL InvoiceDate NULL CustomerID Country 
536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 12/1/19 8:26 2255) 17850 United Kingdom 


536365 71053 WHITE METAL LANTERN 6 12/1/10 8:26 3.39 17850 United Kingdom 

536365 84496B CREAM CUPID HEARTS COAT HANGER 8 12/1/10 2.75 17850 United Kingdom 

536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 6 /19 8:26 3.39 17850 United Kingdom 
Time taken: 5.25 seconds, Fetched: 5 row(s) 


图 2.13 


图 2.14 显示 了 hive 控制 台中 的 查询 过 程 。 


select lower(description), quantity from OnlineRetail limit 5; 


WHERE 子 句 用 于 过 滤 谓 词 运算 符 和 逻辑 运算 符 设置 的 结果 ， 并 借助 于 下 列 工具 : 
口 ” 谓 词 运算 符 列表 。 

ü 逻辑 运算 符 列表 。 

Q 函数 列表 。 
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htve> select lower(description), quantity from OnlineRetail limit 5; 
OK 

description NULL 

white hanging heart t-light holder 


white metal lantern 6 

cream cupid hearts coat hanger 8 

knitted union flag hot water bottle 6 
Time taken: 0.154 seconds, Fetched: 5 row(s) 


图 2.14 


WHERE 子 句 的 应 用 示例 如 下 所 示 : 


select * from OnlineRetail where Description-'WHITE METAL LANTERN' limit 5; 


图 2.15 显示 了 hive 控制 台中 的 查询 过 程 。 


hive> select * from OnlineRetail where Description-'WHITE METAL LANTERN' limit 5; 

OK 

536365 71053 WHITE METAL LANTERN 12/1/10 8:26 3:39 17850 United Kingdom 
536373 71053 WHITE METAL LANTERN 12/1/10 9:02 3:39 17850 United Kingdom 
536375 71053 WHITE METAL LANTERN 12/1/10 9:32 3:39 17850 United Kingdom 
536396 71053 WHITE METAL LANTERN 12/1/10 10:51 3.39 17850 United Kingdom 
536406 71053 WHITE METAL LANTERN 8 12/1/10 11:33 3.39 17850 United Kingdom 
Time taken: 0.144 seconds, Fetched: 5 row(s) 


图 2.15 
下 列 查询 操作 显示 了 group by 子 句 的 使 用 方式 : 


select Description, count(*) from OnlineRetail group by Description limit 
5; 


图 2.16 显示 了 hive 控制 台中 的 查询 过 程 。 


166 
4 PURPLE FLOCK DINNER CANDLES 4 
OVAL WALL MIRROR DIAMANTE 22 


SET 2 TEA TOWELS I LOVE LONDON 
"ACRYLIC HANGING JEWEL 1 
Time taken: 1.6 seconds, Fetched: 5 row(s) 


图 2.16 
下 列 查询 操作 展示 了 group by 子 句 的 应 用 示例 ， 同 时 指定 了 相关 条 件 ， 进 而 过 滤 
having 子 句 生成 的 结果 。 


select Description, count(*) as cnt from OnlineRetail group by Description 
having cnt» 100 limit 5; 
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图 2.17 显示 了 hive 控制 台中 的 查询 过 程 。 


SET 2 TEA TOWELS I LOVE LONDON 
"KEY FOB 119 
6 RIBBONS RUSTTC CHARM 121 


69 TEATIME FATRY CAKE CASES 198 
Time taken: 1.551 seconds, Fetched: 5 row(s) 


图 2417 


下 列 示例 采用 了 group by 子 句 ， 利 用 having 子 句 过 滤 结 果 ， 并 通过 order by 子 句 排 
序 结果 ， 此 处 使 用 了 DESC. 


select Description, count(*) as cnt from OnlineRetail group by Description 
having cnt» 100 order by cnt DESC limit 5; 


图 2.18 显示 了 hive 控制 台中 的 查询 过 程 。 


WHITE HANGING HEART T-LIGHT HOLDER 
REGENCY CAKESTAND 3 TIER 278 
HEART OF WICKER SMALL 224 


HAND WARMER BABUSHKA DESIGN 213 
SCOTTIE DOG HOT WATER BOTTLE 207 
Time taken: 3.045 seconds, Fetched: 5 row(s) 


BI 2.18 


2.5.5 INSET 语句 的 语法 


Hive 中 的 INSERT 语句 如 下 所 示 : 


ーー append new rows to tablenamel 
INSERT INTO TABLE tablenamel select statementi1 FROM from statement; 


-- replace contents of tablenamel 
INSERT OVERWRITE TABLE tablenamel select statement1 FROM from statement; 


-- more complex example using WITH clause 
WITH tablenamel AS (select statementi FROM from statement) INSERT 
[OVERWRITE/INTO] TABLE tablename2 select statement2 FROM tablenamel; 


2.5.6 ”原始 类 型 


类 型 与 表 中 的 列 所 关联 。 下 面 考查 Hive 所 支持 的 类 型 ， 如 表 2.1 所 示 。 
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表 2.1 
类 m Ho xk 
O TINYINT: 单字 节 整 数 
O SMALLINT: 双 字 节 整 数 
U INT: 4 字 节 整数 
ロ BIGINT: 8 字 节 整数 
布尔 类 型 BOOLEAN: TRUE 或 FALSE 
. Q FLOAT: 単 精度 浮 点 数 
浮 点数 
Q DOUBLE: 双 精 度 浮 点数 
定点 数 DECIMAL: 定点 值 ， 用 户 负责 定义 缩放 和 精度 
口 STRING: 特定 字符 集中 的 字符 序列 
字符 串 类 型 O VARCHAR: 包含 最 大 长 度 的 特定 字符 集中 的 字符 序列 
Q CHAR: 包含 指定 长 度 的 特定 字符 集中 的 字符 序列 
SA 口 TIMESTAMP: 特定 的 时 间 点 ， 精 确 到 纳 秒 
日 期 和 时 间 类 型 U DATE: Hj 
二 进 制 类 型 BINARY: 字 节 序列 


25.7 复杂 类 型 


借助 于 下 列 各 项 内 容 ， 还 可 利用 原始 类 型 和 其 他 组 合 类 型 构建 复杂 类 型 。 

D 结构 ， 类 型 中 的 元 素 可 通过 “.” 进 行 访问 。 

口 映射 ( 键 - 值 元 组 ): 元 素 通过 ['element name'] 标 识 访问 。 

O 数组 (索引 表 ) : 数组 中 的 元 素 具 有 相同 类 型 ， 并 可 通过 [n] 标 识 访问 元 素 。 其 
中 , n 表示 为 数组 的 索引 〈 以 0 开始 ) 。 


2.5.8 内 建 运算 符 和 函数 
下 面 列 出 的 运算 符 和 函数 不 一 定 是 最 新 的 (Hive 运算 符 和 UDF 中 包含 了 更 多 的 最新 
HE . fEBeeline 或 Hive CLI 中 ， 可 使 用 以 下 命令 显示 最 新 的 文档 : 


SHOW FUNCTIONS; 
DESCRIBE FUNCTION <function name>; 
DESCRIBE FUNCTION EXTENDED <function name>; 


全部 Hive 关键 字 均 为 大 小 写 敏感 ， 其 中 包括 Hive 运算 符 和 函数 名 称 。 
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1. 内 建 运算 符 
取决 于 操作 数 之 间 的 比较 是 否 成 立 ， 表 2.2 中 的 运算 符 对 所 传递 的 操作 数 进行 比较 ， 
并 生成 TRUE 或 FALSE 值 。 
表 2.2 
运 算 符 类 型 描 x 

A-B 全 部 原始 类 型 | 如 果 表 达 式 A 等 于 表达 式 B， 则 结果 为 TRUE， 否则 为 FALSE 

AI=B 全 部 原始 类 型 | 如 果 表 达 式 A 不 等 于 表达 式 B， 则 结果 为 TRUE, 否则 为 FALSE 

A<B 全 部 原始 类 型 | 如 果 表 达 式 A 小 于 表达 式 B， 则 结果 为 TRUE， 否则 为 FALSE 

im 全 部 原始 类 型 如 果 表 达 式 A 小 于 或 等 于 表达 式 B， 则 结果 为 TRUE, AMA 
FALSE 

A>B 全 部 原始 类 型 | 如 果 表 达 式 A 大 于 表达 式 B， 则 结果 为 TRUE， 否则 为 FALSE 

全 部 原始 类 型 如 果 表 达 式 A 大 于 或 等 于 表达 式 B， 则 结果 为 TRUE, AMIN 
FALSE 

AISNULL 所 有 类 型 如 果 表 达 式 A 计算 为 NULL， 则 结果 为 TRUE， 和 否则 为 FALSE 

AISNOT NULL | 所 有 类 型 如 果 表 达 式 A 计算 为 NULL， 则 结果 为 FALSE， 否 则 为 TRUE 
如 果 字 符 串 A 与 SQL 正则 表达 式 B 匹配 ， 则 结果 为 TRUE, 否 
则 为 FALSE。 其 中 ， 比 较 过 程 以 逐 字符 方式 执行 。B 中 的 字 符 
与 A 中 的 任意 字符 匹配 (类似 于 POSIX 正则 表达 式 中 的 “.”) ; 
B 中 的 % 字 符 匹 配 A 中 的 任意 数量 的 字符 (类 似 于 POSIX 正则 表 

ALIKEB 字符 串 达 式 中 的 “.*”) 。 例 如 , foobar LIKE foo 计算 为 FALSE; 而 foobar 
LIKEfoo WAN TRUE; 'foobar LIKE foo% 的 计算 结果 也 为 
TRUE。 当 对 % 进 行 转 义 时 ， 可 使 用 〈% 匹 配 于 一 个 % 字 符 ) 。 如 
果 数 据 中 包含 了 一 个 分 号 ， 且 需要 对 此 进行 搜索 ， 那 么 ， 该 字符 
需要 被 转 义 ， 即 columnValue LIKE avb 
WR A MB HJ NULL, 则 结果 为 NULL。 如果 A 中 的 任意 子 字 
符 串 (可 能 为 空 串 ) 匹配 于 Java 正则 表达 式 B. (读者 可 参考 Java 

ARLIKEB 字符 串 正则 表达 式 的 语法 知识 ) ， 则 结果 为 TRUE; 否则 返回 FALSE. 
例如 ，'foobar rlike 'foo' 和 "foobar' rlike "ff*r$' 的 计算 结果 均 为 
TRUE 

A REGEXP B 字符 串 等 同 于 RLIKE 


表 2.3 中 的 运算 符 支 持 各 种 常见 的 算术 运算 ， 且 返回 结果 均 为 数字 类 型 。 
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表 2.3 
运 算 符 类 m H č 
生成 A+B 的 计算 结果 。 相应 地 , 结果 类 型 为 操作 数 的 公共 父 类 型 (在 
类 型 层次 结构 中 ) 。 例 如 ， 每 个 整数 均 为 一 个 浮 点 数 。 因 此 ， 浮 点 
数 是 整数 的 包含 类 型 。 因 此 ， 浮 点 数 和 整数 上 的 + 运算 符 将 生成 一 个 


A+B 全 部 数字 类 型 


浮 点 数 
生成 AB 的 计算 结果 .结果 类 型 表示 为 操作 数 类 型 的 公共 副 类 型 (在 

= Da OH Oe HEF 

A-B | 全 部 数字 类 型 | 类 型 层次 结构 中 ) 


生成 AXB 的 计算 结果 。 结果 类 型 为 操作 数 类 型 的 公共 父 类 型 (在 类 

A*B 全 部 数字 类 型 | 型 层次 结构 中 ) 。 注 意 , 如果 乗法 填 算 上 溢 , 需要 将 基 中 一 不 操作 

符 强制 转换 为 类 型 层次 结构 中 更 高 的 类 型 

生成 A 除 以 B 的 计算 结果 。 结 果 类 型 为 操作 数 类 型 的 公共 类 型 ( 在 

类 型 层次 结构 中 ) 。 如 果 操 作 数 为 整数 类 型 ， 最 终结 果 为 除法 的 商 

生成 A 除 以 B 的 余数 。 结 果 类 型 为 操作 数 类 型 的 公共 类 型 〈 在 类 型 

层次 结构 中 ) 

A 和 B 位 运算 AND 的 计算 结果 。 结 果 类 型 为 操作 数 类 型 的 公共 类 型 
(在 类 型 层次 结构 中 ) 

A 和 B 位 运算 OR 的 计算 结果 。 结 果 类 型 为 操作 数 类 型 的 公共 类 型 
(在 类 型 层次 结构 中 ) 

A fl B 位 运算 KOR 的 计算 结果 .。 结果 类 型 为 操作 数 类 型 的 公共 类 型 
(在 类 型 层次 结构 中 ) 

~A 全 部 数字 类 型 | A 的 位 运算 NOT 的 计算 结果 。 结 果 类 型 等 同 于 A 的 类 型 


表 2.4 显示 了 逻辑 表达 式 的 构建 过 程 。 取决 于 操作 数 的 布尔 值 , 全 部 结果 将 返回 TRUE 
或 FALSE。 


A/B 全 部 数字 类 型 
A%B 全 部 数字 类 型 
A&B 全 部 数字 类 型 
A|B 全 部 数字 类 型 


A^B 全 部 数字 类 型 


表 2.4 


运 算 Som 描 述 


A ANDB | 布尔 型 | 如果 A 和 了 B 均 为 TRUE， 则 结果 为 TRUE 


A&&B | 布尔 型 “| 等 同 于 AANDB 

AORB 布尔 型 “| WR A BKB 为 TRUE, 或 者 二 者 均 为 TRUE, 则 结果 为 TRUE; 和 否则 为 FALSE 
AIB 布尔 型 “| 等 同 于 AORB 

NOTA | 布尔 型 | 如果 A H FALSE, 则 结果 为 TRUE， 否 则 为 FALSE 

IA 布尔 型 | 等 同 于 NOT A 


表 2.5 提供 了 复杂 类 型 中 元 素 的 访问 机 制 。 
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表 2.5 
运 算 符 tik 
和 表示 为 一 个 数组 ， 返回 数组 A 中 的 第 n 个 元 素 。 其 中 ， 第 1 个 元 素 的 索引 为 0。 
A[n] en - 例如 ， 如 果 数 组 由 ['foo','bar"] 构 成 ， 那 么 ，A[0] 将 返回 'foo'，A[1] 
n 表示 为 一 个 int E 
则 返回 bar 
M 表示 为 一 个 Map | 返回 与 映射 中 key 对 应 的 数值 .例如 ,如 果 M 定 义 为 由 (f -> 'foo', 
M[key] <K, V>, key 包含 了 | や > bar, ‘all’ -> "foobar) 构 成 的 映射 ， 那 么 ，M['al] 将 返回 
类 型 K "foobar' 
te 返回 S 的 x 字段 例如 ,对 于 struct foobar (int foo, int bar), foobar. 
ai $ 表示 为 “个 结构 | foo 将 返回 struct 中 foo BER HEMEL 
2. 内 建 函 数 
表 2.6 列 出 了 Hive 所 支持 的 内 建 函 数 。 
表 2.6 
数据 类 型 描 x 
BIGINT round(double a) 返回 双 精 度 浮 点 数 合 入 后 的 BIGINT f 
BIGINT floor(double a) 返 等 于 当前 双 精 度 浮 点 数 的 最 大 BIGINT 值 
BIGINT 返回 大 于 或 等 于 当前 双 精度 浮 点 数 的 最 小 BIGINT i 
KAYA sand) ad need) 返回 -个 随机 数 CHEF TIED 。 男 外 , 指定 seed 可 确 
保 所 生成 的 随机 数 具 有 确定 性 
返回 在 A 后 连接 B 所 产生 的 字符 串 。 例 如 ，concat(foo', 
string concat(string A, string B.…) | "bar) 的 结果 为 'foobar 。 该 函数 接收 任意 数量 的 参数 ， 并 
返回 所 有 的 连接 结果 
返回 A 的 子 字 符 串 (起 始 于 start 位 置 , 终止 于 字符 串 A 
siang SubstGting A, int | 的 结尾 位 置 ) 。 例 如 ，substrCfoobar, 4) 将 返回 bar 
substr(string A, int start, int | 返回 包含 既定 长 度 的 A 的 子 字符 串 〈 始 于 start 位 置 ) 。 
lans length) 例如 ，substr(foobar, 4, 2) 将 返回 ba 
. : 返回 大 写字 符 的 字符 串 。 例 如 ，upper(fOoBaR') 将 返回 
string upper(string A) 
'FOOBAR' 
string ucase(string A) 等 同 于 upper(string A) 
. : 返回 小 写字 符 的 字符 串 。 例 如 ，lower(fOoBaR') 将 返回 
string lower(string A) 
"foobar' 
string lcase(string A) 等 同 于 lower(string A) 
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BR 


. . . 移 除 A 两 侧 空格 后 的 字符 串 。 例 如 ,trim(foobar ') 将 返 
string trim(string A) 加 :foobar 


BR A 左 侧 空 格 后 的 字符 串 。 例 如 ，ltrim(' foobar ') 


string Itrim(string A) 将 返回 foobar ・ 


BR A 右 侧 空格 后 的 字符 串 。 例 如 , rtrim( foobar ') 将 
返回 foobar 

FA C ERB 中 的 全 部 子 字 符 串 ,并 返回 结果 字符 串 (与 
Java 正则 表达 式 相 匹配 ， 参 见 Java 正则 表达 式 语 法 ) 。 
例如 ，regexp_replace(foobar,'oolar, ) 将 返回 'fb' 

int 返回 映射 类 型 中 元 素 的 数量 

int 返回 数组 类 型 中 元 素 的 数量 

将 表达 式 expr 的 结果 转换 为 <ype>。 例 如 ，cast(1' as 
BIGINT) 将 字符 串 '1' 转 换 为 其 整数 表达 形式 。 如 果 转 换 失 
败 ， 函 数 将 返回 NULL 

将 UNIX 时 间 ( 自 1970-01-01 00:00:00 UTC 起 ) 的 秒 数 
string from unixtime(int unixtime) | 转换 为 当前 系统 时 区 中 该 时 刻 时 间 戳 的 字符 串 ， 格 式 为 
1970-01-01 00:00:00 


. . 返回 时 间 戳 中 的 日 期 部 分 ， 例 如 string: to. date(" 1970-01-01 
string to date(string timestamp) 
00:00:00") ="1970-01-01" 


日 期 或 时 间 戳 中 的 年 份 ， 例 如 string: year("1970-01-01 
00:00:00") =1970, year("1970-01-01") = 1970 


string rtrim(string A) 


regexp replace(string A, 


string 


string B, string C) 


value of «type» | cast(<expr> as <type>) 


[zi] 
[sl 


int year(string date) 


[zi] 
[sl 


日 期 或 时 间 戳 中 的 月 份 ,例如 string:month("1970-11-01 


int month(string date) 
00:00:00") — 11, month("1970-11-01") — 11 


[zd 
Iz] 


日 期 或 時 同質 中 的 天 数 , 例 如 string: day("1970-11-01 


int day(string date) 
00:00:00") =1, day("1970-11-01") = 1 


根据 所 指定 的 path 路 径 , 从 json 字符 串 中 获取 json 对 象 ， 
并 返回 析 取 后 的 .json 対象 的 json 字符 串 。 如 果 输 入 的 
json 字符 串 无 效 ， 函 数 将 返回 null 


表 2.7 显示 了 Hive 中 所 支持 的 内 建 聚合 函数 。 


get json object(string 


string 


json string, string path) 
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表 2.7 


Eo 数 描 xk 
count(*), count(⑮④) 返 回 検索 的 行 数 , 包括 包含 NULL 值 的 行 
count(expr), count(expD 返 回 输入 表达 式 为 非 NULL 的 行 数 
count(DISTINCT count(DISTINCT expr[，expr]) 返 回 输 入 表达 式 唯 一 且 非 NULL 
的 行 数 


分 组 中 元 素 的 和 ， 或 分 组 中 列 的 不 同 值 的 和 


BIGINT 


sum(col), 
sum(DISTINCT col) 
avg(col), 
avg(DISTINCT col) 


min(col) 


DOUBLE 


分 组 中 元 素 的 平均 值 ， 或 分 组 中 列 的 不 同 值 的 平均 值 


分 组 中 列 的 最 小 值 
分 组 中 列 的 最 大 值 


max(col) 


2.5.9 语言 的 功能 


Hive 的 SQL 提供 了 以 下 基本 的 SQL 操作 , 井 可 在 表 或 分 区 上 工作 : 


O 利用 WHERE 子 句 ， 过 滤 表 中 的 行 。 
O ”利用 SELECT FAJ, 选择 表 中 的 特定 列 。 
Ch ”执行 两 个 表 间 的 等 值 连接 。 
口 针对 存储 于 某 个 表 中 的 数据 ， 计 算 多 个 group by 列 上 的 聚合 结果 。 
D ”将 查询 结果 存储 于 另 一 个 表 中 。 
D 将 某 个 表 中 的 内 容 下 载 至 本 地 目录 中 (例如 nfs〉。 
O 将 查询 结果 存储 于 某 个 hadoop dfs 目录 中 。 
口 管理 表 和 分 区 (创建 、 移 除 和 修改 )。 
口 对 于 自 定义 map/reduce 作业 ， 向 所 选 语言 中 插入 自 定义 脚本 。 
对 于 某 些 常用 函数 ， 表 2.8 显示 了 信息 的 检索 方式 。 
表 2.8 
EO 数 Hive 
検索 信息 (通用 方 式 ) SELECT from columns FROM table WHERE conditons: 
检索 全 部 值 SELECT * FROM table; 
检索 部 分 值 | SELECT * FROM table WHERE rec name = "value"; 
根据 多 项 条 件 进行 检索 SELECT * FROM TABLE WHERE recl = "valuel" AND rec2 = "value2"; 


检索 特定 列 SELECT column name FROM table: 
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ES Hive 
检索 唯一 的 输出 结果 SELECT DISTINCT column name FROM table: 
排序 SELECT coll, col2 FROM table ORDER BY col2: 
道 向 排序 SELECT coll, col2 FROM table ORDER BY col2 DESC; 
行 计算 SELECT COUNT(*) FROM table; 
利用 计算 结果 进行 分 组 SELECT owner, COUNT(*) FROM table GROUP BY owner; 
最 大 值 SELECT MAX(col name) AS label FROM table; 
在 多 个 表 中 进行 选择 (利用 | SELECT petname, comment FROM pet JOIN event ON (pet.name = 
別名 w/"AS" 连 接 相 同 的 表 ) | event.name) 


2.6 Apache Spark 


Apache Spark 是 跨 不 同 工 作 负载 和 平台 的 统一 分 布 式 计算 引擎 。Spark 可 以 连接 至 不 
同 的 平台 ,并 使 用 各 种 范例 (如 Spark Streaming. Spark ML. Spark SQL 和 Spark Graphx ) 
处 理 不 同 的 数据 工作 负载 。 

Apache Spark 是 一 个 快速 的 内 存 数据 处 理 引 擎 ， 有 具有 优雅 而 富有 表现 力 的 开发 APT, 
允许 数据 工作 人 员 高 效 地 执行 流 式 机 器 学 习 或 SQL 工作 负载 ， 这 一 类 操作 需要 对 数据 集 
进行 快速 的 交互 访问 。 

在 核心 之 上 构建 的 其 他 库 还 支持 流 式 工作 负载 、SQL、 图 形 处 理 和 机 器 学 习 。 例 如 ， 
SparkML 是 为 数据 科学 设计 的 ， 其 抽象 机 制 使 得 数据 科学 变 得 更 加 容易 。 

Spark 提供 了 实时 流 式 处 理 、 查 询 、 机 器 学 习 和 图 形 处 理 等 功能 。 在 Apache Spark 
出 现 之 前 ， 我 们 必须 为 不 同类 型 的 工作 负载 使 用 不 同 的 技术 ， 且 分 别 用 于 批量 分 析 、 交 
互 式 查询 、 实 时 流 处 理 以 及 机 器 学 习 算 法 。 然 而 ， 仅 通过 Apache Spark， 就 可 以 完成 所 
有 这 些 任 务 ， 而 非 “ 零 散 ” 的 多 种 技术 。 

使 用 Apache Spark, 可 以 处 理 所 有 类 型 的 工作 负载 。 Ab, Spark 还 支持 Scala, Java, 
R 和 Python 作为 编写 客户 机 程序 的 各 种 手段 。 

Apache Spark 是 一 个 开源 的 分 布 式 计算 引擎 ， 与 MapReduce 相 比 具有 以 下 优点 : 

尽 可 能 地 使 用 内 存 处 理 。 

可 对 批量 、 实 时 工作 负载 使 用 通用 引擎 。 

兼容 于 YARN 和 Mesos。 

可 与 HBase、Cassandra、MongoDB、 HDFS、Amazon S3 以 及 其 他 文件 系统 和 数 
据 源 实现 较 好 的 集成 。 


ロロ ロロ 
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Spark 于 2009 年 在 伯克利 发 布 , 同时 也 是 构建 Mesos 项 目 过 程 中 的 一 项 成 果 ; Mesos 
则 是 一 个 支持 各 种 集群 计算 系统 的 集群 管理 框架 。 

Hadoop 和 Apache Spark 都 是 十 分 流行 的 大 数据 框架 ， 但 它们 的 用 途 并 不 相同 。 
Hadoop 提供 了 分 布 式 存储 和 MapReduce 分 布 式 计算 框架 ; 而 Spark 则 是 一 个 数据 处 理 框 
架 ， 并 对 其 他 技术 提供 的 分 布 式 数 据 存储 进行 操作 。 
注意: 

鉴于 Spark 的 数据 处 理 方式 ， 其 速度 明显 快 于 MapReduce。MapReduce 通过 磁盘 进 
行 操作 ; 而 Spark 比 MapReduce 更 加 高 效 ， 其 性 能 提高 的 主要 原因 是 内 存 处 理 中 的 堆 外 
处 理 ， 而 不 是 仅仅 依赖 于 基于 磁盘 的 计算 。 


如 果 数 据 操作 以 及 反馈 机 制 多 为 静态 ， 同 时 可 采用 批 处 理 方式 ， 那 么 ，MapReduce 
处 理 已 然 足够 。 如 果 需 要 对 流 数 据 进行 分 析 ， 或 者 对 多 级 处 理 逻 辑 中 的 处 理 需 求 进行 分 
析 ， 则 可 使 用 Spark。 
图 2.19 显示 了 Apache Spark 栈 。 


Spark SQL Spark Spark ML Spark 
Streaming Graphx 


Spark Core 


StandAlone | | YARN 


图 2.19 
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无 论 我 们 使 用 哪 一 种 方法 执行 大 数据 分 布 式 计算 如果 缺少 Tableau 这 样 的 工具 , 将 
很 难 理解 数据 的 具体 含义 一 一 此 类 工具 可 以 提供 一 个 易于 理解 的 数据 可 视 化 结果 。 

可 以 通过 多 种 工具 实现 可 视 化 结果 , 例如 Cognos. Tableau. Zoom data、KineticaDB、 
Python Matplotlib. R + Shine. JavaScript 等 。 第 10 章 将 对 此 加 以 详细 讨论 。 
图 2.20 显示 了 一 幅 简单 的 Tableau 横 条 图 。 
图 2.21 则 显示 了 Tableau 中 的 一 幅 地 理 空间 数据 视图 。 
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28 本 章 小 结 


本 章 讨 论 了 大 数据 分 析 及 其 各 种 概念 ， 以 及 与 大 数据 相关 的 7 个 “V”， 即 容量 、i 
度 、 多 样 性 、 准 确 性 、 可 变性 、 数 值 、 可 视 化 。 除 此 之 外 ， 本 章 还 介绍 了 某 些 技术 ， 以 
辅助 数据 分 析 的 执行 过 程 。 

第 3 章 将 讨论 MapReduce， 以 及 分 布 式 计算 中 较为 常用 的 模式 。 


第 3 章 基于 MapReduce 的 大 数据 处 理 


本 章 将 前 述 章节 所 学 知识 整合 至 实践 用 例 中 ， 并 构建 端 到 端 管线 ， 进 而 执行 大 数据 
分 析 。 
本 章 主要 涉及 以 下 内 容 : 
Q MapReduce 框架 。 
Q MapReduce 作业 类 型 。 
> mapper 作业 。 
と 単 mapper-reducer 作业 。 
> 多 mapper-reducer 作业 。 
O MapReduce 模式 。 
> RARR. 
> 过滤 模式 。 
> 连接 模式 。 


3.1 MapReduce 框架 


MapReduce 框架 用 于 计算 Hadoop 集群 中 的 大 量 数据 。MapReduce 利用 YARN 并 作 
为 任务 对 mapper 和 reduce 进行 调度 ,同时 还 使 用 了 容器 。MapReduce 支持 编写 分 布 式 应 
用 程序 ， 并 可 处 理 源 自 文件 系统 中 的 大 量 数据 ， 例 如 Hadoop 分 布 式 文件 系统 (HDFS) , 
其 可 靠 性 和 容错 性 也 极 大 地 得 到 保证 。 当 采用 MapReduce 框架 处 理 数据 时 ， 需 要 创建 运 
行 于 该 框架 上 的 作业 以 执行 所 需 任 务 。 通 常 ，MapReduce 作业 将 输入 数据 划分 为 多 个 
worker 节点 ， 并 以 并 行 方式 运行 mapper 任务 。 

此 处 ， 任 何 HDFS 级 别 或 mapper 任务 中 的 故障 均 会 被 自动 加 以 处 理 ， 以 实现 相应 
的 容错 机 制 。 待 mapper 结束 后 ， 对 应 结果 将 通过 网 络 被 复制 至 运行 reduce 任务 的 其 他 机 
mE. 
图 3.1 显示 了 一 项 MapReduce 作业 示例 ， 并 计算 单词 的 出 现 频率 。 
MapReduce 使 用 YARN 作为 资源 管理 器 ， 如 图 3.2 所 示 。 
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Input Splitting Mapping Shuffling Reducing 


Hadoop Cool Hadoop,1 Hadoop,1 Hadoop,3 
P dnm Cool1 i 


Hadoop Cool 
Wow Hadoop > Wow Hadoop 
Cool Hadoop Wow 


Hadoop,3 
Cool,2 
Wow,2 


Cool Hadoop Wow 


图 3.2 
实际 上 ， 术 语 MapReduce 涉及 两 个 Hadoop 程序 执行 的 独立 和 不 同 的 任务 。 第 一 项 


任务 是 映射 作业 ， 并 接收 一 个 数据 集 并 将 其 转换 为 另 一 个 数据 集 。 其 中 ， 单 个 元 素 被 分 


解 为 元 组 〈 即 键 / 值 对 ) 。 


reduce 作业 接收 来 自 map 的 输出 结果 作为 输入 内 容 ， 并 将 此 类 数据 元 组 组 合 为 较 小 


的 元 组 集 。 正 如 MapReduce 名 称 所 体现 的 那样 ，reduce 作业 通常 在 map 作业 之 后 执行 。 


MapReduce 的 输入 内 容 表 示 为 数据 存储 中 的 一 组 文件 , 且 分 布 于 HDFS 中 。 在 Hadoop 


中 ， 此 类 文件 利用 某 种 输入 格式 被 划分 ， 进 而 定义 了 如 何 将 某 个 文件 分 隔 于 输入 划分 结 
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果 中 。 输 入 划分 表示 为 文件 的 块 字 节 视图 ， 并 通过 map 任务 加 载 。Hadoop 中 的 每 个 map 


任务 被 划分 为 以 下 阶段 : 记录 读 取 器 、 映 射 器 、 组 合 器 和 分 区 器 。 其 中 ，map 任务 的 输 
出 结果 《〈 称 作 中 间 键 值 ) 被 发 送 至 reducer 中 。reduce 任务 则 被 划分 为 以 下 几 个 阶段 : 混 


洗 (shuffle) 、 排 序 、reducer 和 输出 格式 化 。 运 行 map 任务 的 节点 处 于 数据 所 处 的 最 优 
节点 上 。 通 过 这 一 方式 ， 数 据 一 般 无 须 在 网 络 上 移动 ， 并 可 在 本 地 机 器 上 被 计算 。 
本 章 将 考查 不 同 的 应 用 示例 , 以 及 如 何 使 用 MapReduce 作业 输出 所 期 望 的 输出 结果 。 


对 此 ， 我 们 将 使 
3:1.1 


简单 的 数据 集 。 


数据 集 


第 1 个 数据 集 表 示 为 一 个 城市 表 ， 其 中 包含 了 城市 ID 以 及 City 名 称 , 如 下 所 示 : 


ID,City 
1,Boston 


2,New York 


3,Chicago 


4,Philadelphia 
5,San Francisco 


7,Las Vegas 


上 述 cities.csv 文件 可 通过 下 列 命令 移 至 hdfs 中 : 


hdfs dfs -copyFromLocal cities.csv /user/normal 


第 2 个 数据 集 表 示 为 某 个 城市 的 温度 ， 其 中 包含 了 测量 的 Date、 城 市 ID, 


以 及 某 个 


城市 某 天 的 Temperature, 如 下 所 示 : 


Date, ID, Temperature 
2018-01-01,1,21 
2018-01-01,2,22 
2018-01-01,3,23 
2018-01-01,4,24 
2018-01-01,5,25 
2018-01-01,6,22 
2018-01-02,1,23 
2018-01-02,2,24 
2018-01-02,3,25 


通过 运行 下 列 命令 ， 可 将 上 述 temperatures.csv 文件 移 至 hdfs 中 : 


hdfs dfs -copyFromLocal temperatures.csv /user/normal 
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图 3.3 显示 了 MapReduce 程序 的 编程 组 件 。 
Input Dataset 


= 
InputFormat 


* 


RecordReader 


Partition Sort Shuffle 


RecordWriter 


x 
OutputFormat 


v 
Output Data 


图 3.3 
3.1.2 “记录 读 取 器 


输入 读 取 器 将 输入 分 为 相应 尺寸 的 划分 结果 (在 实际 操作 过 程 中 一 般 为 64MB 一 
128MB) ; 同时 ， 该 框架 将 某 个 划分 结果 分 配 至 每 个 map 函数 中 。 另 外 ， 输 入 读 取 器 从 
稳定 存储 器 (一 般 是 分 布 式 文件 系统 ) 中 读 取 数 据 ， 并 生成 键 / 值 对 。 

Qz: 
一 个 常见 的 示例 是 读 取 一 个 文本 文件 目录 ， 并 将 每 一 行 作为 记录 返回 。 


记录 读 取 器 将 输入 格式 生成 的 输入 划分 结果 转换 为 记录 。 这 里 ， 记 录 读 取 器 的 功能 
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是 将 数据 解析 为 记录 ， 而 不 是 解析 记录 自身 ; 随后 将 该 数据 以 键 / 值 对 形式 传递 至 mapper 
中 。 通 常 ， 这 一 上 下 文中 的 键 表示 为 位 置信 息 ， 值 则 表示 为 构成 记录 的 数据 块 。 自 定义 
记录 读 取 器 的 详细 内 容 则 超出 了 本 书 的 讨论 范围 ， 这 里 假设 读者 已 针对 数据 具备 了 相应 
的 记录 读 取 器 。 有 具体 来 说 ，LineRecordReader 即 为 TextInputFormat 提供 的 默认 
RecordReader， 并 将 输入 文件 中 的 各 行 视 作 新 值 ; 所 关联 的 键 则 表示 为 字 节 偏 移 。 除 了 首 
个 划分 结果 之 外 ，LineRecordReader 一 般 会 跳 过 划分 内 容 (或 其 中 的 部 分 内 容 ) 的 第 1 
行 ， 并 在 结尾 分 割 线 之 后 读 取 一 行 (如果 数据 有 效 ， 且 不 为 最 后 一 个 划分 结果 ) 。 


3.43 BRET 


map 函数 接收 一 系列 的 键 / 值 对 ， 经 逐一 处 理 后 生成 0 个 或 多 个 输出 的 键 / 值 对 。map 
的 输入 和 输出 类 型 间 可 彼此 不 同 〈 且 通常 如 此 ) 。 

如 果 应 用 程序 执行 单词 计数 操作 ，map 函数 将 每 一 行 分 解 为 多 个 单词 ， 并 针对 每 个 单 
词 输出 键 / 值 对 。 相 应 地 ， 每 个 输出 对 将 包含 单词 作为 键 ， 行 中 该 单词 的 实例 数量 作为 值 。 

在 mapper 中 , 代码 将 在 源 自 记 录 读 取 器 的 每 个 键 / 值 对 上 被 执行 , 并 生成 0 个 或 多 个 
新 的 键 / 值 对 ， 称 作 mapper 的 中 间 输 出 (通常 也 由 键 / 值 对 构成 ) 。 这 里 ， 将 确定 每 条 记 
录 的 键 / 值 与 MapReduce 作业 间 的 直接 关联 方式 。 其中， 键 表示 为 分 组 的 数据 ， 而 值 则 表 
示 为 reducer 中 所 用 的 部 分 数据 ， 进 而 生成 相应 的 输出 结果 。 模 式 中 讨论 的 关键 内 容 之 一 
即 是 不 同类 型 的 用 例如 何 确定 特定 的 键 / 值 逻 辑 。 实 际 上 , 这 种 逻辑 的 语义 也 是 MapReduce 
设计 模式 之 间 的 一 个 关键 区 别 。 


3.1.4 组 合 器 


如 果 每 个 mapper 的 各 项 输出 直接 传递 至 每 个 reducer， 这 将 占用 大 量 的 资源 和 时 间 。 
对 此 ， 组 合 器 〈 可 选 的 本 地 reducer) 可 以 在 map 阶段 对 数据 进行 分 组 ， 同 时 接收 源 自 
mapper 的 中 间 键 ， 并 将 用 户 提供 的 方法 应 用 于 该 映射 器 的 小 范围 内 的 聚合 值 。 例 如 ， 由 
于 聚合 计数 表示 为 各 部 分 的 求 和 结果 ， 因 而 可 生成 中 间 计 数值 ， 随 后 对 此 类 中 间 计 数 求 
和 并 生成 最 终结 果 。 在 大 多 数 场合 下 ， 这 可 显著 地 降低 在 网 络 间 移 动 的 数据 量 。 有 具体 来 
说 , 当 考 查 城市 和 温度 的 数据 集 时 , 通过 网 络 发 送 (Boston, 66) 所 需 的 字 节 要 比 发 送 (Boston， 
20). (Boston, 25), (Boston, 21) 少 3 倍 。 因 此 ， 合 成 器 通常 可 有 效 地 改善 性 能 问题 且 不 存 
在 任何 副作用 。 

稍 后 ， 我 们 将 指出 哪些 模式 可 从 组 合 器 中 收益 ， 而 哪些 模式 则 无 法 使 用 组 合 器 。 鉴 
于 无 法 保证 组 合 器 总 是 能 够 被 执行 ， 因 而 不 可 将 其 视 为 整体 算法 中 的 一 部 分 内 容 。 
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3.1.5 分 区 器 


分 区 器 接收 源 自 mapper 的 中 间 键 / 值 对 (或 者 可 用 的 合成 器 ) ， 并 将 其 划分 为 多 个 分 
片 ， 且 每 个 reducer 对 应 1 个 分 片 。 

针对 于 分 片 ， 每 个 map 函数 通过 应 用 程序 的 partition 函数 被 分 配 至 特定 的 reducer。 
partition 函数 接收 键 和 reducer 的 数量 ， 并 返回 期 望 reducer 的 索引 。 

一 般 的 做 法 是 ,对 键 进 行 哈 希 计算 ， 并 利用 哈 希 值 对 reducer 的 数 量 求 模 , 如 下 所 示 : 


partitionId = hash (key) $ R, where R is number of Reducers 


对 于 均衡 负载 来 说 ， 重 要 的 是 选取 一 个 partition 函数 ， 以 实现 每 个 分 片 数据 的 均匀 
分 布 ; 否则 ，MapReduce 操作 将 会 等 待 较 慢 的 reducer (也 就 是 说 ，reducer 持 有 较 大 比例 
的 傾斜 数 据 ) 。 

在 map 和 reduce 阶段 ,为 了 将 数据 从 生成 节点 处 移 至 分 片 (数据 将 于 其 中 执行 reduce 
操作 ) 中 ， 数 据 将 被 混 洗 〈 即 并 行 排序 以 及 随后 的 节点 间 的 互 换 ) 。 取 决 于 网 络 带 宽 、 
CPU 速度 、 所 生成 的 数 据 , 以 及 map 和 reduce 计算 所 占用 的 时 间 ， 混 洗 操 作 所 占用 的 时 
间 有 时 会 超过 计算 时 间 。 

默认 状态 下 ， 分 区 器 计算 每 个 对 象 的 哈 希 码 ， 通 常 是 一 个 md5 校 验 和 。 随 后 ， 将 键 
空间 均匀 地 分 布 在 reducer 上 ， 同 时 确保 不 同 mapper 中 具有 相同 值 的 键 最 终 位 于 同一 个 
reducer 上 。 利 用 诸如 排序 这 一 类 操作 ， 可 自 定 义 分 区 器 的 默认 行为 。 针 对 每 项 映射 任务 ， 
分 区 后 的 数据 将 被 写 入 本 地 文件 系统 中 ， 并 等 待 对 应 的 reducer 读 取 。 


3.1.6 混 洗 和 排 序 


当 mapper 结束 了 输入 数据 的 处 理工 作 后 〈 主 要 是 数据 的 划分 和 键 / 值 对 的 生成 )， 输 
出 结果 将 在 集群 中 予以 分 布 以 启动 reduce 任务 。 因 此 ，reduce 任务 起 始 于 混 洗 和 排序 步 
又， 即 接收 全 部 mapper 和 后 续 分 区 器 写 入 的 输出 文件 ， 并 将 其 下 载 至 reducer 任务 所 运 
行 的 本 地 机 器 中 。 这 一 类 数据 个 体 随后 通过 键 存储 至 一 个 较 大 的 键 / 值 对 列表 中 。 这 里 ， 
排序 的 主要 目的 是 将 等 价 的 键 整 合 至 一 起 ， 以 便 在 reduce 任务 中 可 以 轻松 地 对 其 进行 遍 
历 。 利 用 自 定义 代码 控制 键 的 存储 和 分 组 方式 ， 框 架 可 自动 处 理 一 切 事物 。 


3.1.7 reducer 任务 


reducer 接收 分 组 后 的 数据 作为 输入 ， 并 针对 每 个 键 分 组 运行 一 次 reduce 函数 。 该 函 
数 接收 一 个 键 和 迭代 器 ， 进 而 遍历 与 该 键 关 联 的 所 有 值 。 在 许多 模式 中 都 会 看 到 ， 该 函 
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数 将 执行 大 范围 的 处 理 操 作 。 其 中 ,数据 将 通过 多 种 方式 被 聚合 、 过 滤 和 组 合 。 待 reduce 
函数 执行 完毕 后 ， 将 向 最 后 一 个 步骤 中 传递 0 个 或 多 个 键 / 值 对 ， 即 之 前 所 谈 到 的 输出 格 
式 。 类 似 于 map 函数 ， 作 为 解决 方案 中 的 核心 逻辑 ，reduce 将 在 不 同 的 作业 间 发 生变 化 。 
reducer 可 能 会 包含 大 量 的 自 定义 操作 ,包括 HDFS 的 写 入 操作 、Elasticsearch 索引 的 输出 ， 
LIK RDBMS 或 NoSQL 的 输出 ， 例 如 Cassandra、HBase 等 。 


3.1.8 输出 格式 


输出 格式 负责 转换 源 自 reduce 函数 中 的 最 终 键 / 值 对 ， 并 通过 记录 写 入 器 将 其 写 入 某 
个 文件 中 。 默 认 状态 下 ， 将 使 用 一 个 标签 分 隔 键 和 值 ， 并 利用 换行 符 分 隔 记录 。 通 常 ， 
这 可 通过 自 定 义 方式 提供 更 为 丰富 的 输出 格式 。 最 终 ， 无 论 格式 如 何 ， 数 据 都 将 被 写 入 
HDFS 中 。 其 间 ， 不 仅 是 默认 状态 下 所 支持 的 HDFS 写 入 操作 ， 还 包括 输出 至 Elasticsearch 
索引 , 以 及 RDBMS 或 NoSQL 的 输出 行为 ， 例 如 Cassandra、HBase 等 。 


3.2 MapReduce 作业 类 型 


MapReduce 作业 可 通过 多 种 方式 编写 ， 这 取决 于 所 期 望 的 结果 。MapReduce 作业 的 
基本 结构 如 下 所 示 : 


import java.io.IOException; 

import java.util.StringTokenizer; 

import java.util.Map; 

import java.util.HashMap; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 

import org.apache.commons.lang.StringEscapeUtils; 


public class EnglishWordCounter { 
public static class WordMapper 
extends Mapper<Object, Text, Text, IntWritable> { 
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数 ， 


public static class CountReducer 
extends Reducer<Text, IntWritable, Text, IntWritable> { 


} 


public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration (); 

Job job = new Job(conf, "English Word Counter"); 

job. setJarByC1ass (EnglishWordCounter.class); 
job.setMapperClass (WordMapper.class) ; 
job.setCombinerClass (CountReducer.class) ; 
job.setReducerClass (CountReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 

job. setOutputValueClass (IntWritable.class) ; 
FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 
System.exit (job.waitForCompletion(true) ? 0 : 1); 

} 

} 


动 程序 的 目的 在 于 对 作业 进行 编排 。main 函数 中 的 前 几 行 代 码 用 于 解析 命令 行 参 
并 开始 设置 作业 对 象 一 一 通知 所 使 用 的 计算 类 、 输 入 和 输出 路 径 。 
下 面 考查 Mapper 代码 。 代 码 将 对 输入 字符 串 进行 简单 的 标记 ， 并 作为 mapper 的 输 


出 写 入 每 个 单词 中 ， 如 下 所 示 : 


public static class WordMapper 

extends Mapper<Object, Text, Text, IntWritable> { 

private final static IntWritable one = new IntWritable(1); 
private Text word = new Text(); 

public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException { 

// Grab the "Text" field, since that is what we are counting over 
String txt = value.toString() 

StringTokenizer itr = new StringTokenizer (txt); 

while (itr.hasMoreTokens()) { 

word.set(itr.nextToken()); 

context.write(word, one); 

) 

) 

) 


reducer 代码 则 相对 简单 。 相 应 地 ，reduce 函数 针对 每 个 键 分 组 调用 一 次 ， 此 处 为 每 
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个 单词 。 随 后 将 遍历 数字 值 ， 并 获取 相应 的 求 和 结果 ， 如 下 所 示 : 


public static class CountReducer 

extends Reducer<Text, IntWritable, Text, IntWritable> { 
private IntWritable result = new IntWritable(); 

public void reduce(Text key, Iterable<IntWritable> values, 
Context context) throws IOException, InterruptedException { 


int sum = 0; 

for (IntWritable val : values) ( 
sum += val.get(); 

} 

result.set (sum) ; 
context.write(key, result); 

} 

} 


后 续 内 容 将 进一步 讨论 基本 的 MapReduce 作业 类 型 。 
3.2.1 SingleMapper 作业 


単 一 mapper 作业 一 般 用 于 转换 用 例 中 。 如 果 我 们 只 想 改 变数 据 的 格式 ， 例 如 某 种 转 
换行 为 ， 那 么 就 可 以 使 用 这 种 模式 ， 如 图 3.4 所 示 。 


输入 数据 


表 3.1 显示 了 相应 的 应 用 场景 。 
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表 3.1 


5 — 景 某 些 城市 采用 简称 表示 ， 例 如 BOS、NYC 等 


Q Key: 城市 名 称 
Map(Key, Value) | O Value: 简称 。 具 体 来 说 ， 如 果 城 市 为 Boston/boston， 则 转换 为 BOS; 如果 
城市 为 New York/new york， 则 转换 为 NYC 


下 面 考查 完整 的 单一 mapper 作业 示例 。 对 此 ， 可 输出 前 述 temperature.csv 文件 中 的 
cityID 和 temperature。 
对 应 代码 如 下 所 示 : 


package io.somethinglikethis; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import java.io.IOException; 


public class SingleMapper 
{ 
public static void main(String[] args) throws Exception ( 

Configuration conf - new Configuration(); 
Job job - new Job(conf, "City Temperature Job"); 
job.setMapperClass (TemperatureMapper.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (IntWritable.class); 


FileInputFormat.addInputPath (job, new Path (args [0] ) ) 
FileOutputFormat.setOutputPath(job, new Path (args [1] ) ) 


System.exit(job.waitForCompletion(true) ? 0 : 1); 
/* 


Date, Id, Temperature 
2018-01-01,1,21 
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2005000052522 
x 
private static class TemperatureMapper 
extends Mapper<Object, Text, Text, IntWritable> { 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException { 
String txt = value.toString(); 
String[] tokens = txt.split(","); 
String date - tokens[0]; 
String id - tokens[1].trim(); 
String temperature - tokens[2].trim(); 
if (temperature.compareTo ("Temperature") != 0) 
context.write(new Text(id), new 
IntWritable (Integer .parseTn (temperature))); 
) 


} 
当 执行 上 述 作业 时 ， 
如 下 所 示 : 


<?xml version-"1.0" encoding-"UTF-8"?» 


利用 编辑 器 创建 一 个 Maven 项 目 ， 并 编辑 pom.xml 文件 , 


<project xmlns="http://maven.apache.org/POM/4.0.0" 

xmlns:xsi="http: //www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation-"http://maven.apache.org/POM/4.0.0 

http://maven.apache.org/xsd/maven-4.0.0.xsd"» 
<modelVersion>4.0.0</modelVersion> 
<packaging>jar</packaging> 
<groupId>io.somethinglikethis</groupId> 
<artifactId>mapreduce</artifactId> 
<version>1.0-SNAPSHOT</version> 


<name>mapreduce</name> 
<!-- FIXME change it to the project's website --> 
<url>http://somethinglikethis-io</url> 


<properties> 
<project .build.sourceEncoding>UTF-8</project . build. sourceEncoding> 
<maven.compiler.source>1.7</maven.compiler.source> 
<maven.compiler.target>1.7</maven.compiler.target> 
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</properties> 


<dependencies> 
<dependency> 
«groupId»junit«/groupId» 
<artifactId>junit</artifactId> 
<version>4.11</version> 
<scope>test</scope> 
</dependency> 
<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-mapreduce-client-core</artifactId> 
<version>3.1.0</version> 
</dependency> 
<dependency> 
<groupId>org. apache .hadoop</groupId> 
<artifactId>hadoop-client</artifactId> 
<version>3.1.0</version> 
</dependency> 
</dependencies> 
<build> 
<plugins> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-shade-plugin</artifactId> 
<version>3.1.1</version> 
<executions> 
<execution> 
<phase>package</phase> 
<goals> 
<goal>shade</goal> 
</goals> 
</execution> 
</executions> 
<configuration> 
<finalName>uber-$ {project .artifactId}- 
${project.version}</finalName> 
<transformers> 
<transformer 
implementation="org. apache .maven.plugins.shade.resource.ServicesResour 
ceTransformer"/> 


</transformers> 
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«filters» 
«filter» 
<artifact>*:*</artifact> 
<excludes> 
<exclude>META-INF/* .SF</exclude> 
<exclude>META-INF/* . DSA</exclude> 
<exclude>META-INF/* .RSA</exclude> 
<exclude>META-INF/LICENSE*</exclude> 
<exclude>license/*</exclude> 
</excludes> 
</filter> 
</filters> 
</configuration> 
</plugin> 
</plugins> 
</build> 
</project> 


据 此 ， 可 以 使 用 Maven 构建 shaded/fat jar, 如 下 所 示 : 


Moogie:mapreduce sridharalla$ mvn clean compile package 
INFO] Scanning for projects... 


INFO] 


INFO] --- maven-clean-plugin:2.5:clean (default-clean) 8 mapreduce --- 
INFO] Deleting /Users/sridharalla/git/mapreduce/target 


随后 ， 在 目标 目录 中 ， 应 可 看 到 uber-mapreduce-1.0-SNAPSHOT.jar。 下 面 开始 执行 
当前 作业 。 
9 提示, 

确保 本 地 Hadoop 集群 已 处 于 启动 状态 ( 参见 第 1 章 ) ， 并 可 在 浏览 器 中 访问 
http://1ocalhost:9870。 
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当 执 行 作业 时 ,将 使 用 到 Hadoop 二 进 制 文件 ， 以 及 之 前 创建 的 fat jar 文件 , 如 下 所 示 : 


export PATH-S$PATH:/Users/sridharalla/hadoop-3.1.0/bin 
hdfs dfs -chmod -R 777 /user/normal 


运行 下 列 命令 : 


hadoop jar target/uber-mapreduce-1.0-SNAPSHOT.jar 
io.somethinglikethis.SingleMapper /user/normal/temperatures.csv 
/user/normal/output/SingleMapper 


作业 运行 后 ， 将 输出 下 列 结果 : 


Moogie:target sridharalla$ hadoop jar uber-mapreduce-1.0-SNAPSHOT.jar 
io.somethinglikethis.SingleMapper /user/normal/temperatures.csv 
/user/normal/output/SingleMapper 

2018-05-20 18:38:01,399 WARN util.NativeCodeLoader: Unable to load 
nativehadoop library for your platform... using builtin-java classes where 
applicable 

2018-05-20 18:38:02,248 INFO impl.MetricsConfig: loaded properties from 
hadoop-metrics2.properties 


这 里 ， 需 要 特别 注意 以 下 输出 计数 器 : 


Map-Reduce Framework 

Map input records-28 

Map output records-27 

Map output bytes-162 

Map output materialized bytes-222 
Input split bytes-115 

Combine input records=0 

Combine output records=0 

Reduce input groups-6 

Reduce shuffle bytes-222 

Reduce input records-27 

Reduce output records-27 

Spilled Records-54 

Shuffled Maps 
Failed Shuffles=0 

Merged Map outputs=1 

GC time elapsed (ms)=13 

Total committed heap usage (bytes) =1084227584 


其 中 ，mapper 输出 了 27 条 记录 ， 且 不 存在 reducer 操作 ， 所 有 输入 记录 都 按 1:1 的 
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比例 输出 。 通 过 http:/1ocalhost:9870 并 转 至 /user/normal/output 下 的 输出 目录 ， 读 者 将 能 
够 使 用 HDFS 浏览 器 对 此 进行 检查 ， 如 图 3.5 所 示 。 


Browse Directory 


ん sernomal 


Show ss i entries. 
C Ji Permission Last Modified 
Moy 201749 OninoRetal cov 
Mey 20 1805 ame 
Moy20 1749 — 
May 20 1842 oupa 
Mey 201749 ienpaniumaca — f 


Showing 1 to o! 5 entis Poco El < 


Hadoop, 2018. 


图 3.5 
下 面 访问 SingleMapper 文件 夹 ， 如 图 3.6 所 示 。 


Ie > © | © 12200:19870/expiocer.htmis/. T 


Browse Directory 


Musorinormaloutput 
Show 25 ¢ entries 


li Permission Last Modifiod 
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— me NR … 


Hadoop, 2018. 


图 3.6 


接 下 来 ， 访 问 其 中 的 SingleMapper 文件 夹 ， 如 图 3.7 所 示 。 
最 后 ， 单 击 图 中 的 part-r-00000 文件 ， 如 图 3.8 所 示 。 
对 应 的 文件 属性 如 图 3.9 所 示 。 
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图 3.7 


Group Sie Last Modified 
supergroup 08 May 20 1842 


supergroup — 1958 — May201842 


图 3.8 


File information - part-r-00000 


Head me file (frst 32K) Tail tho fie (ast 32K) 


Block IO: 1073741840 
Block Pool IO: BP-146058116-10.0.0.103-1525585320513 
Generation Stamp: 1018 

Size: 135 
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图 3.9 
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当 使 用 图 3.9 中 的 head/tail 选项 时 ， 即 可 查看 到 当前 文件 的 内 容 ， 如 图 3.10 所 示 。 


€ > C |o 12700: 


Tai tne We (ast 32K) 


Block infomation 


Block ID: 1073741840 
Block Pool ID: BP-146058116-10.0.0.105-1525505320518. 
Generation stamp: 1016 
Size: 135 
vaianaty 

+ 10.0.0.103 


TITELE 


图 3.10 


这 显示 了 SingleMapper 作业 的 输出 结果 , 即 簡単 地 写 入 毎 行 的 cityID 和 temperature, 
且 不 涉及 任何 计算 。 


Qz: 
除 此 之 外 ， 还 可 使 用 命令 行 查看 输出 内 容 ， 如 下 所 示 : 


hdfs dfs -cat /user/normal/output/SingleMapper/part-r-00000 


文件 的 输出 内 容 如 下 所 示 : 


25 
2 
23 
19 
ZS 
20 
22 
Zu 
24 


RNNPPPP PP 
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26 
el 
25 
22 
25 
23 
21 
26 
23 
24 
22 
18 
24 
22 
29 
24 
22 
22 


至 此 ， 我 们 得 到 了 SingleMapper 作业 的 输出 结果 ， 且 与 预期 结果 一 致 。 


O0 0101 UO! Oi Oi た Ww ww Ww IN 


3.22 SingleMapperReducer 作业 


单一 mapper-reducer 作业 用 于 聚合 用 例 中 。 如 果 希 望 通过 键 执行 诸如 计数 这 一 类 


操作 ， 则 可 使 用 该 模式 ， 如 图 3.11 所 示 。 


输入 数据 


输出 数据 


图 3.11 
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表 3.2 列 出 了 相关 场景 。 


表 3.2 
He 计算 所 有 城市 的 全 部 /平均 温度 
U Key: 城市 


Map (Key Valie) O Value: 城市 的 温度 


通过 城市 进行 分 组 ， 并 计算 每 所 城市 的 平均 温度 


下面 考査 単 一 mapper-reducer 作业 的 完整 示例 。 对 此 ， 我 们 仅 是 简单 地 输出 
temperature.csv 文件 中 的 cityID 和 temperature。 
对 应 代码 如 下 所 示 : 


package io.somethinglikethis; 


Reduce 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


import java.io.IOException; 


public class SingleMapperReducer 
{ 
public static void main(String[] args) throws Exception { 

Configuration conf = new Configuration () ; 
Job job = new Job(conf, "City Temperature Job"); 
job.setMapperClass (TemperatureMapper.class) ; 
job.setReducerClass (TemperatureReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 


FileInputFormat.addInputPath (job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 


System.exit(job.waitForCompletion(true) ? 0 : 1); 
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/* 
Date, Id, Temperature 
2018-01-01,1,21 
2018-01-01,2,22 
x, 
private static class TemperatureMapper 
extends Mapper<Object, Text, Text, IntWritable> { 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException { 
String txt = value.toString(); 
String[] tokens = txt.split(", 
String date - tokens[0]; 
String id - tokens[1].trim(); 
String temperature - tokens[2].trim(); 
if (temperature.compareTo ("Temperature") != 0) 
context.write(new Text(id), new 
IntWritable (Tnteger .parseTn (temperature))); 
) 


private static class TemperatureReducer 
extends Reducer«Text, IntWritable, Text, IntWritable» { 
private IntWritable result = new IntWritable(); 
public void reduce(Text key, Iterable<IntWritable> values, 
Context context) throws IOException, 
InterruptedException { 
int sum = 0; 
int n = 0; 
for (IntWritable val : values) ( 
sum += val.get(); 
n +=17 
} 
result.set (sum/n) ; 
Context .write (key, result); 


下 面 运行 下 列 命 令 : 
hadoop jar target/uber-mapreduce-1.0-SNAPSHOT.jar 


io.somethinglikethis.SingleMapperReducer/user/normal/temperatures.csv/ 


user/normal/output/SingleMapperReducer 


第 3 章 


基于 MapReduce 的 大 数据 处 理 


・75・ 


当前 作业 运行 后 ， 将 输出 下 列 计数 器 结果 : 


Map-Reduce Framework 

Map input records=28 

Map output records=27 

Map output bytes=162 

Map output materialized bytes=222 

Input split bytes=115 

Combine input records=0 

Combine output records=0 

Reduce input groups=6 
shuffle bytes=222 
Reduce input records=27 
Reduce output records=6 
Spilled Records=54 
Shuffled Maps -1 
Failed Shuffles=0 
Merged Map outputs=1 


Reduce 


GC time elapsed (ms)=12 
Total committed heap usage (bytes) =1 


其 中 , mapper 输出 了 27 条 记录 ，reducer 输出 了 


080557568 


6 条 记录 。 读 者 可 通过 HDFS 浏 


览 


进行 检测 ， 即 使 用 http:Wlocalhost:9870， 并 转 至 /sernormal/output 下 的 输出 目录 ， 如 图 3.12 


所 示 。 


€ > © [© 12700x9870/exporer 


Hadoop ^ Overew  Datanoóes 。 Datanode Volume F: 


Browse Directory 


‘Ausermormalioutput 


Show 25 entries 


Ji Permission Group Last Modified 


race supergroup, May 20 18:42 


racc supergroup May 20 18:43 


Showing 1 to 2 of 2 entries 


Hadoop, 2018. 


图 3.12 


接 下 来 , 访问 SingleMapperReducer 文件 夹 ， 采 月 


SingleMapper 


SingleMapperReducer 


日 与 之 前 SingleMapper 作业 相同 的 操 
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作 。 图 3.13 显示 了 文件 内 容 。 


c | C (0 127001:987 


File information - part-r-00000 


Downloac Head the fie (frst 32K) Tail the fle (last 32K) 


Block ID: 1073741841 
‘Block Poo! ID: BP-146058116-10.0.0,103-1525565320513 
Generation Stamp: 1017 
Siz0:30 
Availabiity 

* 1000103 


图 3.13 


这 显示 了 SingleMapperReducer 作业 的 输出 结果 ， 即 写 入 每 行 的 cityID 和 每 个 cityID 
的 平均 温度 。 
Oz: 

除 此 之 外 ， 还 可 使 用 命令 行 查看 输出 内 容 ， 如 下 所 示 : 


hdfs dfs -cat /user/normal/output/SingleMapperReducer/part-r-00000 


文件 的 输出 内 容 如 下 所 示 : 


22 
23 
23 
23 
22 
22 


至 此 ， 我 们 得 到 了 作业 的 输出 结果 ， 且 与 期 望 结果 保持 一 致 。 


nn U a wR e 


第 3 章 ， 基于 MapReduce 的 大 数据 处 理 ・77・ 


3.2.3 MultipleMappersReducer 作业 
MultipleMappersReducer 作业 用 于 连接 用 例 中 。 在 该 设计 模式 中 ， 输 入 源 自 多 个 输入 
文件 ， 并 生成 连接 /聚合 的 输出 结果 ， 如 图 3.14 所 示 。 
输入 数据 。 输入 数据 


MINI 


Mapper Mapper 


输出 数据 
图 3.14 
对 应 场景 如 表 3.3 所 示 。 
表 3.3 
计算 城市 的 平均 温度 值 ， 但 持 有 两 个 包含 不 同 模式 的 文件 ， 分 别 对 应 于 城市 和 温 
场 R 度数 据 。 具 体 来 说 , 输入 文件 1 包含 了 cityID 和 Name: 输入 文件 2 包含 了 每 所 城 
市 每 天 的 温度 
O Mapi (针对 输入 1): 需要 编写 一 个 程序 以 划分 cityID 和 Name, 并 根据 cityID 
Ra 写 入 Name。 随 后 ， 准 备 相应 的 键 / 值 对 (cityID 和 Name) 
ap(Key Value) 口 Map2 (针对 输入 2) : 需要 编写 一 个 程序 以 划分 date、cityID 和 temperature， 
并 根据 cityID 写 入 temperature。 随 后 ,准备 相应 的 键 值 对 (cityID 和 temperature) 
Reduce 根据 cityID 进行 分 组 ， 并 根据 每 个 城市 名 称 计算 平均 温度 值 


下 面 考查 MultipleMappersReducer 作业 的 完整 示例 。 对 此 ， 将 输出 temperature.csv X 
件 中 的 cityID 和 平均 温度 值 ， 如 下 所 示 : 


package io.somethinglikethis; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 
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import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.MultipleInputs; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


import java.io.IOException; 


public class MultipleMappersReducer 
{ 
public static void main(String[] args) throws Exception ( 

Configuration conf - new Configuration(); 
Job job = new Job(conf, "City Temperature Job"); 
job.setMapperClass (TemperatureMapper.class); 
MultipleInputs.addInputPath(job, new Path(args[0]), 

TextInputFormat.class, CityMapper.class); 
MultipleInputs.addInputPath(job, new Path(args[1]), 

TextInputFormat.class, TemperatureMapper.class); 


job.setMapOutputKeyClass (Text.class); 
job.setMapOutputValueClass (Text.class); 
job.setReducerClass (TemperatureReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (IntWritable.class); 


FileOutputFormat.setOutputPath(job, new Path(args[2])); 


System.exit(job.waitForCompletion(true) ? 0 : 1); 


/* 
Id; City, 
1,Boston 
2,New York 
x 


private static class CityMapper 
extends Mapper<Object, Text, Text, Text» { 
public void map(Object key, Text value, Context context) 


throws IOException, InterruptedException { 
String txt = value.toString(); 
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Stringi] tokens = txt.split(","); 

String id = tokens[0].trim(); 

String name = tokens[1].trim(); 

if (name.compareTo("City") != 0) 
context.write(new Text(id), new Text (name)); 


/* 
Date,Id,Temperature 
2018-01-01,1,21 
2018-01-01,2,22 
ay 
private static class TemperatureMapper 
extends Mapper<Object, Text, Text, Text> { 


public void map(Object key, Text value, Context context) 

throws IOException, InterruptedException { 

String txt = value.toString(); 

String[] tokens = txt.split(","); 

String date = tokens[0]; 

String id = tokens[1].trim(); 

String temperature = tokens[2].trim(); 

if (Etemperature . compareTo ("Temperature") != 0) 
context.write(new Text (id), new Text (temperature) ) ; 


private static class TemperatureReducer 
extends Reducer<Text, Text, Text, IntWritable> { 
private IntWritable result = new IntWritable(); 
private Text cityName = new Text ("Unknown"); 
public void reduce(Text key, Iterable<Text> values, 
Context context) throws IOException, 
InterruptedException { 
int sum = 0; 


int n = 
cityName = new Text ("city-"tkey.toString()); 


for (Text val : values) { 
String strVal = val.toString(); 
if (strVal.length() <=3) 
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sum += Integer.parseInt (strVal); 
n +=1; 

) else ( 
cityName = new Text(strVal); 


) 

if (n==0) n = 1; 

result.set (sum/n) ; 
context.write(cityName, result); 


} 
随后 ， 运 行 下 列 命令 : 


hadoop jar target/uber-mapreduce-1.0-SNAPSHOT.jar 
io.somethinglikethis.MultipleMappersReducer/user/normal/cities.csv/ 
user/normal/temperatures.csv /user/normal/output/MultipleMappersReducer 


当前 作业 运行 后 ， 将 输出 下 列 计数 器 结果 : 


Map-Reduce Framework -- mapper for temperature.csv 
Map input records-28 
Map output records-27 
Map output bytes-135 
Map output materialized bytes-195 
Input split bytes-286 
Combine input records-0 
Spilled Records-27 
Failed Shuffles=0 
Merged Map outputs=0 
GC time elapsed (ms)=0 
Total committed heap usage (bytes) =430964736 


Map-Reduce Framework. -- mapper for cities.csv 
Map input records=7 
Map output records=6 
Map output bytes=73 
Map output materialized bytes=91 
Input split bytes=273 
Combine input records=0 
Spilled Records=6 
Failed Shuffles=0 
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Merged Map outputs=0 
GC time elapsed (ms)=10 
Total committed heap usage (bytes) =657457152 


Map-Reduce Framework -- output average temperature per city name 
Map input records=35 
Map output records=33 
Map output bytes=208 
Map output materialized bytes=286 
Input split bytes=559 
Combine input records=0 
Combine output records=0 
Reduce input groups=7 
Reduce shuffle bytes=286 
Reduce input records=33 
Reduce output records=7 
Spilled Records=66 
Shuffled Maps =2 
Failed Shuffles=0 
Merged Map outputs=2 
GC time elapsed (ms)=10 
Total committed heap usage (bytes) =1745879040 


其 中 ， 一 个 mapper 输出 了 27 条 记录 ，mapper2 输出 了 6 Kids, reducer 输出 了 7 
条 记录 。 利 用 HDFS 浏览 器 ， 我 们 可 对 此 予以 检测 ， 即 访问 http://localhost:9870， 并 访问 
/user/normal/output 下 的 输出 目录 ， 如 图 3.15 所 示 。 


lc 3 で O 127001:9870/explorer mmie 


Browse Directory 


usatinormaioutput 


Owner Last Modified 
srgharala May 20 18:45 o MulipleMacpersRoducer 
srqharala May20 1842 SingleMapper 

ww srdharala o May 20 18:44 SingleMapperCombinerReducer 


p rdharala 0 May 20 1843 SngleMapperReducer 


Showing 1 10-4014 entries ru El e 


Hadoop, 2018. 


图 3.15 
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访问 MultipleMappersReducer 文件 夹 ， 并 执行 与 SingleMapper 作业 任务 相同 的 操作 。 
随后 ， 选 择 head/tail 选项 ， 并 查看 文件 内 容 ， 如 图 3.16 所 示 。 
File information - part-r-00000 


Download Head the fle (frst 32K) Tail the fle (ast 32K) 


Block information — 


Block ID: 1073741844 
Block Poo! ID: BP-146058116-10.0.0.103-1525565320513 
Generation Stamp: 1020. 
Size: 88 
Availabilty 

= 1000103 


图 3.16 


这 显示 了 MultipleMappersReducer 作业 的 输出 结果 , 即 城市 名 和 每 所 城市 的 平均 温度 
值 。 如果 cityID 未 包含 temperature.csv 中 的 对 应 记录 , BWA, 平均 值 将 显示 为 0。 类 似 地 ， 
如 果 cityID 未 包含 cities.csv 中 的 名 称 ， 城 市 名 将 显示 为 city-N。 


Qi. 
除 此 之 外 ， 还 可 使 用 命令 行 查看 输出 内 容 ， 如 下 所 示 : 


hdfs dfs -cat/user/normal/output/MultipleMappersReducer/partr-00000 


输出 后 的 文件 内 容 如 下 所 示 : 


Boston 22 

New York 23 

Chicago 23 

Philadelphia 23 

San Francisco 22 

city-6 22 //city ID 6 has no name in cities.csv only temperature 
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measurements 


Las Vegas 0 // city of Las vegas has no temperature measurements in 


temperature.csv 


至 此 ， 我 们 得 到 了 MultipleMappersReducer 作业 的 执行 结果 ， 且 与 预期 结果 保持 一 致 。 


3.24 SingleMapperReducer 作业 


SingleMapperReducer 作业 用 于 聚合 用 例 中 。 其 中 ,组 合 器 (也 称 作 semi-reducer) 定 
义 为 一 个 可 选 类 ,并 接收 源 自 map 类 中 的 输入 内 容 , 随后 将 输出 的 键 / 值 对 传递 至 reducer 
类 中 。 这 里 ， 组 合 器 的 用 途 在 于 降低 reducer 的 工作 负载 ， 如 图 3.17 所 示 。 


输出 数据 


图 3.17 


在 MapReduce 程序 中 , 25% 的 工作 量 在 map 阶段 完成 , 该 阶段 也 称 作 数 据 准 备 阶 段 ， 
并 以 并 行 方式 工作 。 同 时 ，75% 的 工作 量 在 reduce 阶段 完成 ， 也 称 作 计算 阶段 ， 这 一 过 


程 并 未 采用 并 行 方式 ， 因 而 与 map 
一 些 reduce 阶段 的 工作 可 在 组 合 器 
例如 ， 如 果 设 置 了 一 个 组 合 器 


阶段 相 比 ， 其 速度 相对 较 慢 。 为 了 进一步 节省 时 间 ， 
阶段 完成 。 


， 那 么 ， 我 们 将 从 mapper 发 送 (Boston，66)，mapper 


将 (Boston, 22). (Boston, 24). (Boston, 20) 视 为 输入 记录 ， 而 不 是 通过 网 络 发 送 3 个 单独 


的 键 / 值 对 记录 。 
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3.25 ”应 用 场景 


当前 场景 涉及 多 所 城市 ， 同 时 包含 了 针对 每 所 城市 的 每 日 温度 ， 进 而 计算 城市 的 于 
均 温 度 值 。 然 而 ， 存 在 多 种 规则 可 计算 平均 值 。 在 针对 每 所 城市 计算 了 总 值 后 ， 即 可 计 
算 其 平均 值 ， 如 表 3.4 所 示 。 


N 


34 


输入 文件 Map(,Value= Name) 


^ = = 
(多 个 文件 ) GHD 组 合 器 〈 并 行 ) | Reducer ( 非 并 行 ) 输 出 


1 
Boston, < 250,20,155, Boston 


10.90.90.30> <645> 
. 1<10,20,25,45,15,45,25,20> | 1 «250,207 
City 1 2 New 
2 <10,30,20,25,35> 2 «120,107 
New York, York 
<120,10,175,10,135, <720> 
10,110,10,130,10> 
. 1<Boston> 1 <Boston> 
City 2 
2 «New York> 2 «New York» 


下 面 考查 SingleMapperCombinerReducer 作业 的 完整 示例 。 对 此 ， 可 简单 地 输出 
temperature.csv 文件 中 的 cityID 和 平均 温度 值 。 
对 应 diamante 如 下 所 示 : 


package io.somethinglikethis; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


import java.io.IOException; 


public class SingleMapperCombinerReducer 
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public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration(); 
Job job - new Job(conf, "City Temperature Job"); 
job.setMapperClass (TemperatureMapper.class); 
job.setCombinerClass (TemperatureReducer.class); 
job.setReducerClass (TemperatureReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (IntWritable.class); 


FileInputFormat.addInputPath(job, new Path (args [0] ) ) ; 
FileOutputFormat.setOutputPath(job, new Path (args [1] ) ) 


System.exit (job - wa1tForComp1etion (true) ? 0 : 1); 


/* 
Date, Td, Temperature 
2018-0101, 1,21 
ANUS SOME OH sp Pere 
m 
private static class TemperatureMapper 
extends Mapper<Object, Text, Text, IntWritable» { 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException { 
String txt = value.toString(); 
String[] tokens = txt.split(","); 
String date = tokens[0]; 
String id - tokens[1].trim(); 
String temperature = tokens[2].trim(); 
if (temperature - compareTo ("Temperature") != 0) 
context.write(new Text(id), new 
IntWritable (Tnteger . parseTn (temperature))); 
} 


private static class TemperatureReducer 
extends Reducer«Text, IntWritable, Text, IntWritable> { 
private IntWritable result = new IntWritable(); 
public void reduce(Text key, Iterable<IntWritable> values, 
Context context) throws IOException, 
InterruptedException { 
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int sum = 07 

int n = 0; 

for (IntWritable val : values) { 
sum += val.get(); 
n +=1; 

} 

result.set (sum/n) ; 

context.write(key, result); 


} 
接 下 来 ， 运 行 下 列 命令 : 


hadoop jar target/uber-mapreduce-1.0-SNAPSHOT.jar 
io.somethinglikethis.SingleMapperCombinerReducer 
/user/normal/temperatures.csv 
/user/normal/output/SingleMapperCombinerReducer 


运行 上 述 作业 后 ， 将 会 看 到 下 列 计数 器 输出 结果 : 


Map-Reduce Framework 
Map input records-28 
Map output records-27 
Map output bytes-162 
Map output materialized bytes-54 
Input split bytes-115 
Combine input records-27 
Combine output records-6 
Reduce input groups-6 
Reduce shuffle bytes-54 
Reduce input records-6 
Reduce output records-6 
Spilled Records-12 
Shuffled Maps -1 
Failed Shuffles=0 
Merged Map outputs=1 
GC time elapsed (ms)=11 
Total committed heap usage (bytes) =1077936128 


其 中 , mapper 输出 了 27 Aids, reducer 则 输出 了 6 条 记录 。 需 要 注意 的 是 ， 当 前 
设置 了 一 个 组 合 器 ， 该 组 合 器 接收 27 个 输入 记录 ， 并 输出 了 6 条 记录 ,通过 减少 mapper 
和 reducer 间 的 混 洗 记录 ， 人 性 能 得 到 了 显著 的 改善 。 利 用 HDFS 浏览 器 可 对 此 进行 检测 ， 
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即 访问 http://localhost:9870， 并 转 至 /user/normal/output 下 的 输出 目录 ， 如 图 3.18 所 示 。 


Browse Directory 


ん sernormaroulput 


Show 25 ¢ entries 


C li Permission Last Modified Replication Name 
KAA May 20 18:42 o SngleMapper 
awa May 20 18:44 o SingleMapperCombinorReducer. 


dmerwrx May 20 18:43 o ‘SingleMapperReducer ü 


Showing 1103013 entres Provous El voc 


Hadoop, 2018. 


图 3.18 


访问 SingleMapperCombinerReducer 文件 夹 ， 并 执行 与 SingleMapper 相同 的 操作 , 随 
后 通过 head/tail 选项 查看 文件 内 容 ， 如 图 3.19 所 示 。 


Ie > C [O 901 Wi /user/normal/output/Sing e Reduce 


File information - part-r00000 


Download Hend the file (frst 32K]) Tail the fie (last 32K) 


m— 


Block ID: 1073741842. 
‘Block Poo! ID: BP-146058116-10.0.0.103-1525565320513 
Generation Stamp: 1018 
‘Size: 30 
Avallabiny: 
* 10.0.0.103 


2 
m 
E 
2 
2 
E 


Ed 3.19 
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这 显示 了 SingleMapperCombinerReducer 作业 的 输出 结果 ， 即 写 入 每 行 的 cityID， 以 
及 每 个 cityID 的 平均 温度 值 。 
Qi. 

除 此 之 外 ， 还 可 使 用 命令 行 查看 输出 内 容 ， 如 下 所 示 : 


dfs - cat/user/normal/output/SingleMapperCombinerReducer/partr-00000 


对 应 的 输出 文件 内 容 如 下 所 示 : 


22 
23 
23 
23 
22 
22 


至 此 ， 我 们 得 到 了 SingleMapperCombinerReducer 作业 的 执行 结果 ， 且 与 期 望 结果 保 


持 一 致 。 
下 面 将 考查 MapReduce 作业 中 与 模式 相关 的 更 多 信息 。 


の いぬ の DD ビ 


3.3 MapReduce 模式 


MapReduce 模式 表示 为 一 个 模板 ， 并 以 此 处 理 常 见 的 和 一 般 的 数据 处 理 问 题 。 这 里 ， 
模式 并 非特 定 于 某 个 领域 ， 例 如 文本 处 理 或 图 像 分 析 ， 而 是 处 理 某 个 问题 的 通用 解决 方 
案 。 设 计 模式 是 采用 经 过 验证 的 、 真 实 的 设计 原则 构建 更 为 优异 的 软件 系统 。 

设计 模式 可 简化 开发 过 程 ， 相 应 地 ， 存 在 许多 工具 并 可 以 复 用 、 通 用 的 方式 处 理 问 
题 。 据 此 ， 开 发 人 员 可 节省 大 量 的 时 间 。 


33.1 聚合 模式 


本 节 集 中 讨论 设计 模式 ， 进 而 生成 数据 的 顶层 、 概 括 性 视图 。 据 此 ， 我 们 可 以 通过 
单独 查看 一 组 本 地 化 的 记录 和 集 得 出 某 些 结论 。 聚 合 (或 汇总 ) 分 析 是 将 相似 的 数据 分 组 
到 一 起 ， 然 后 执行 操作 ， 例 如 计算 统计 数据 、 构 建 索引 或 简单 的 计数 。 

这 里 所 讨论 的 模式 主要 包括 数字 汇总 、 倒 排 索引 以 及 计数 器 计数 ， 如 图 3.20 所 示 。 
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记录 分 组 | 每 个 分 组 的 聚合 结果 


记录 分 组 


图 3.20 

聚合 模式 是 一 类 通用 模式 ， 用 于 计算 数据 中 的 聚合 统计 数值 ， 其 间 需 要 恰当 地 使 用 
组 合 器 ， 并 在 编写 代码 前 深入 理解 所 执行 的 计算 过 程 。 基 本 上 讲 ， 其 中 的 逻辑 是 通过 键 
字段 对 记录 进行 分 组 ， 进 而 计算 每 个 分 组 的 数值 聚合 结果 。 

当 满足 下 列 条 件 时 ， 可 采用 聚合 或 数值 汇总 模式 : 

Q ”处 理 数值 数据 或 计数 行为 。 

口 ”数据 可 通过 特定 字段 进行 分 组 。 

1. 城市 的 平均 温度 

应 用 程序 将 输出 每 条 记录 的 城市 名 《〈 作 为 键 ) 及 其 温度 值 〈 作 为 值 ) ， 因 而 可 通过 
城市 进行 分 组 。 随 后 ，reduce 阶段 对 全 部 整数 求 和 ， 并 输出 包含 平均 温度 值 的 城市 。 

2. 记录 计数 

一 种 较为 常见 的 汇总 是 根据 键 获取 记录 计数 ， 并 将 其 分 解 为 每 日 、 每 周 和 每 月 的 
计数 。 

3. 最 小 值 /最 大 值 /计数 

这 一 分 析 过 程 将 确定 最 小 值 、 最 大 值 以 及 特定 事件 的 计数 结果 ， 例 如 某所 城市 第 一 
次 被 采样 、 某 所 城市 被 最 后 一 次 采样 ， 以 及 温度 在 此 时 间 段 被 采样 的 次 数 。 如 果 用 户 仅 
对 某 项 内 容 感 兴趣 ， 则 无 须 采 集 上 述 3 种 聚合 数据 〈 或 者 此 处 列 出 的 任何 其 他 数据 ) 。 

4. 平均 值 /中 值 /标准 偏差 

这 与 最 小 值 /最 大 值 /计数 有 些 相似 , 但 其 实现 过 程 并 不 直观 一 一 这 一 类 操作 缺乏 关联 
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性 。 这 里 ， 可 针对 这 3 种 情形 使 用 组 合 器 ， 但 与 复 用 reducer 实现 相 比 需 要 使 用 更 为 复杂 
的 解决 方案 。 
最 小 值 /最 大 值 /计数 示例 ， 以 及 给 定 字段 的 最 小 值 /最 大 值 /计数 均 可 视 为 聚合 模式 的 
良好 应 用 。 
Q5. 
之 前 讨论 的 SingleMapperReducer 作业 可 视 为 聚合 模式 较 好 的 示例 。 
取决 于 具体 的 用 例 ， 可 自 定义 聚合 模式 ， 进 而 生成 期 望 的 输出 结果 。 


3.82 过滤 模式 


过 滤 模 式 也 称 作 转 换 模式 ， 用 于 获取 数据 的 子 集 (无 论 数据 的 大 小 ， 例 如 前 10 个 列 
表 结果 ， 或 者 重复 删除 结果 ) ， 如 图 3.21 所 示 。 


图 3.21 


作为 最 基本 的 模式 ， 过 滤 模 式 可 作为 其 他 模式 的 一 些 抽象 模式 。 过 滤 模 式 简单 地 计 
算 各 条 记录 ， 并 根据 某 些 条 件 进行 决策 。 也 就 是 说 ， 过 滤 掉 某 些 不 再 关注 的 记录 ， 同 时 
保持 有 效 的 记录 。 考 查 一 个 计算 函数 f， 该 函数 接收 一 条 记录 ， 并 返回 TRUE 或 FALSE 
布尔 值 。 如 果 该 函数 返回 TRUE， 则 保留 记录 ; 否则 丢弃 该 记录 。 
Qi. 

之 前 讨论 的 SingleMapper 作业 可 视 为 过 滤 模 式 一 个 较 好 的 示例 。 

取决 于 具体 的 用 例 ， 还 可 自 定义 转换 模式 ， 进 而 生成 期 望 的 输出 结果 。 
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3.3.3 ”连接 模式 


数据 随处 可 见 。 虽 然 数据 本 身 具 有 一 定 的 价值 ， 但 当 开 始 分 析 数 据 集 时 ， 我 们 可 以 
发 现 一 些 有 趣 的 关系 ， 这 也 是 连接 关系 的 用 武之 地 。 通 过 较 小 的 参考 集 ， 可 使 用 连接 进 
一 步 丰 富 数据 ， 也 可 以 用 来 过 滤 或 选择 某 种 特定 列表 中 的 记录 。 

为 了 进一步 理解 此 类 模式 及 其 实现 方式 ,下 面 再 次 考查 之 前 讨论 的 MuldpleMappersReducer 
作业 。 

下 列 内 容 显示 了 部 分 代码 ， 其 中 定义 了 两 个 mapper 和 一 个 reducer. 


public class MultipleMappersReducer 
{ 


public static void main(String[] args) throws Exception ( 
Configuration conf - new Configuration(); 
Job job = new Job(conf, "City Temperature Job"); 
job.setMapperClass (TemperatureMapper.class); 
MultipleInputs.addInputPath(job, new Path(args[0]), 
TextInputFormat.class, CityMapper.class); 
MultipleInputs.addInputPath(job, new Path(args[1]), 
TextInputFormat.class, TemperatureMapper.class); 


job.setMapOutputKeyClass (Text.class); 
job.setMapOutputValueClass (Text.class); 
job.setReducerClass (TemperatureReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (IntWritable.class); 


FileOutputFormat.setOutputPath(job, new Path (args [2] ) ) ; 


System.exit(job.waitForCompletion(true) ? 0 : 1); 


/* 
Id,City 
1,Boston 
2,New York 
Ey 
private static class CityMapper 
extends Mapper<Object, Text, Text, Text» { 


public void map(Object key, Text value, Context context) 
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throws IOException, InterruptedException { 
String txt = value.toString(); 
String[] tokens = txt.split(","); 
String id - tokens[0].trim(); 
String name - tokens[1].trim(); 
if (name.compareTo("City") != 0) 
context.write(new Text(id), new Text (name)); 


/* 
Date,Id,Temperature 
2018-01-01,1,21 
2018-01-01,2,22 
xy 
private static class TemperatureMapper 
extends Mapper<Object, Text, Text, Text» { 


public void map(Object key, Text value, Context context) 

throws IOException, InterruptedException { 

String txt = value.toString(); 

String[] tokens - txt.split(","); 

String date - tokens[0]; 

String id - tokens[1].trim(); 

String temperature = tokens[2].trim(); 

if (temperature.compareTo ("Temperature") != 0) 
context.write(new Text(id), new Text(temperature)); 


private static class TemperatureReducer 
extends Reducer<Text, Text, Text, IntWritable> { 
private IntWritable result = new IntWritable(); 
private Text cityName = new Text ("Unknown"); 
public void reduce(Text key, Iterable<Text> values, 
Context context) throws IOException, 
InterruptedException { 
int sum = 0; 


int n = 


cityName = new Text ("city-"tkey.toString()); 
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For (Text val : values) { 
String strVal = val.toString(); 
if (strVal.length() <=3) 


{ 
sum += Integer.parseInt (strVal) ; 
n +=1; 

} else { 


cityName = new Text (strVal); 
) 
} 
if (n==0) n = 1; 
result.set(sum/n); 
context.write(cityName, result); 


} 
该 作业 的 输出 结果 如 下 所 示 : 


Boston 22 

New York 23 

Chicago 23 

Philadelphia 23 

San Francisco 22 

city-6 22 //city ID 6 has no name in cities.csv only temperature 
measurements 

Las Vegas 0 // city of Las vegas has no temperature measurements in 
temperature.csv 


1. 内 连接 
内 连接 要 求 左 表 和 右 表 具有 相同 的 列 。 如 果 左 侧 或 右 侧 包 含 键 的 一 个 或 多 个 副本 ， 
连接 会 迅速 膨胀 为 某 种 笛 卡 儿 连 接 ， 这 将 占用 较 长 的 计算 时 间 。 图 3.22 显示 了 内 连接 的 


内 连接 


左 表 右 表 


图 3.22 
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下 面 仅 考查 每 所 城市 及 其 温度 值 。cityID 包含 了 下 列 代码 所 定义 的 两 条 记录 : 


private static class InnerJoinReducer 
extends Reducer<Text, Text, Text, IntWritable> { 
private IntWritable result = new IntWritable(); 
private Text cityName = new Text ("Unknown"); 
public void reduce(Text key, Iterable<Text> values, 
Context context) throws IOException, 
InterruptedException { 
int sum = 0; 
int n = 0; 
for (Text val : values) { 
String strVal - val.toString(); 
if (strVal.length() <=3) 
ü 
sum += Integer.parseInt (strVal); 
n +=17 
) else ( 
cityName = new Text (strVal); 


) 

if (n!=0 && cityName.toString().compareTo("Unknown") !=0) ( 
result.set(sum / n); 
context.write(cityName, result); 


) 
输出 结果 如 下 所 示 (不 包含 city-6 或 LasVegas) : 


Boston 22 

New York 23 
Chicago 23 
Philadelphia 23 


San Francisco 22 


2. 左 反 连 接 

左 反 连 接 可 描述 为 : 仅 生成 未 出 现 于 右 表 且 来 自 左 表 中 的 行 。 当 希望 保留 左 表 中 的 
行 ， 同 时 这 些 行 未 出 现 于 右 表 中 时 ， 即 可 采用 这 种 方案 。 该 方案 具有 较 好 的 性 能 一 一 仅 
需 整 体 考查 一 个 表 ， 而 另 一 个 表 仅 检查 连接 条 件 。 图 3.23 显示 了 左 反 连接 。 
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图 3.23 


下 面 考查 城市 及 其 温度 值 。 其 中 ，cityID 仅 包含 名 称 且 不 包含 温度 记录 ， 如 下 所 示 : 


private static class LeftAntiJoinReducer 
extends Reducer<Text, Text, Text, IntWritable» { 
private IntWritable result = new IntWritable(); 
private Text cityName = new Text ("Unknown"); 
public void reduce(Text key, Iterable<Text> values, 
Context context) throws IOException, 
InterruptedException { 
int sum = 0; 


for (Text val : values) ( 

String strVal - val.toString(); 

if (strVal.length() <=3) 

{ 
sum += Integer.parseInt (strVa] ) : 
n +=1; 

) else ( 
cityName = new Text (strVal); 


) 

if (n==0 ) { 
if (n==0) nz1; 
result.set(sum / n); 
context.write(cityName, result); 


) 
对 应 输出 结果 如 下 所 示 : 


Las Vegas 0 // city of Las vegas has no temperature measurements in 
temperature.csv 
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3. 左 外 连接 


除了 两 个 表 公 共 部 分 〈 内 连接 ) 之 外 ， 左 外 连接 还 生成 左 表 中 的 全 部 行 。 如 果 公 共 
行 较 少 ， 则 最 终结 果 相 对 庞大 ， 因 而 会 对 性 能 产生 影响 。 图 3.24 显示 了 左 外 连接 。 


左 外 连接 


左 表 右 表 


图 3.24 


下面 考査 城市 及 共 温 度 値 。 其 中 , cityID 包含 两 条 记录 , 或 者 cityID 仅 位 于 cities.csv 
H, 如 下 所 示 : 


private static class LeftOuterJoinReducer 
extends Reducer<Text, Text, Text, IntWritable» { 
private IntWritable result = new IntWritable(); 
private Text cityName = new Text ("Unknown"); 
public void reduce(Text key, Iterable<Text> values, 


Context context) throws IOException, 
InterruptedException { 


int sum - 0; 
int n = 0; 


for (Text val : values) { 
String strVal = val.toString(); 
if (strVal.length() <=3) 
ji 


sum += Integer.parseInt (strVal); 
n +=1; 
) else ( 


cityName = new Text (strVal); 
} 


if (cityName.toString().compareTo("Unknown") !=0)) { 
if (n==0) n = 1; 


result.set (sum / n); 
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context.write(cityName, result); 


} 
对 应 输出 结果 如 下 所 示 : 


Boston 22 

New York 23 

Chicago 23 

Philadelphia 23 

San Francisco 22 

Las Vegas 0 // city of Las vegas has no temperature measurements in 
temperature.csv 


4. 右 外 连接 

右 外 连接 生成 右 表 中 的 全 部 行 ， 以 及 两 个 表 中 的 公共 行 〈 内 部 连接 ) 。 使 用 该 连接 
将 得 到 右 表 中 的 全 部 行 ， 以 及 左 、 右 表 中 的 公共 行 。 如 果 左 表 中 不 存在 对 应 行 ， 则 填充 
NULL。 当 采用 右 外 连接 时 ， 其 性 能 类 似 于 之 前 讨论 的 左 外 连接 。 图 3.25 显示 了 右 外 连接 。 


图 3.25 


下 面 考查 城市 及 其 温度 值 。 其 中 ，cityID 包含 两 条 记录 , 或 者 仅 包 含 温度 测量 值 ， 如 
下 所 示 : 


private static class RightOuterJoinReducer 
extends Reducer<Text, Text, Text, IntWritable> ( 
private IntWritable result = new IntWritable(); 
private Text cityName = new Text ("Unknown"); 
public void reduce(Text key, Iterable<Text> values, 
Context context) throws IOException, 
InterruptedException { 
int sum = 0; 
ant n = 0; 
for (Text val : values) { 


・98・ Hadoop 大 数据 分 析 实 战 


String strVal = val.toString(); 
if (strVal.length() <=3) 
1 
sum += Integer.parseInt (strVal); 
n +=1; 
) else { 
cityName = new Text (strVal); 
J 
} 
if (n !=0) { 
result.set(sum / n); 
context.write(cityName, result); 
} 


) 
对 应 输出 结果 如 下 所 示 : 


Boston 22 

New York 23 

Chicago 23 

Philadelphia 23 

San Francisco 22 

city-6 22 //city ID 6 has no name in cities.csv only temperature 
measurements 


5. 全 外 连接 

全 外 连接 将 生成 连接 子 句 的 左 、 右 两 侧 表 中 的 全 部 行 〈《 包 括 匹 配 和 不 匹配 的 内 容 ) 。 
当 需 要 保留 两 个 表 中 的 全 部 行 时 ， 可 采用 这 一 连接 方式 。 如 果 表 中 包含 了 较 少 的 公共 行 ， 
最 终结 果 将 较为 庞大 ， 且 性 能 也 会 受到 一 定 程度 的 影响 。 图 3.26 显示 了 全 外 连接 。 


图 3.26 


下 面 考查 城市 及 其 温度 值 。 其 中 ，cityID 包含 两 条 记录 ,或 者 cityID 仅 存在 于 某 一 
个 表 中 ， 如 下 所 示 : 
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private static class FullOuterJoinReducer 
extends Reducer«Text, Text, Text, IntWritable» ( 
private IntWritable result = new IntWritable(); 
private Text cityName = new Text ("Unknown"); 
public void reduce(Text key, Iterable<Text> values, 
Context context) throws IOException, 
InterruptedException { 
int sum = 0; 


for (Text val : values) { 

String strVal - val.toString(); 

if (strVal.length() <=3) 

{ 
sum += Integer.parseInt (strVal); 
n +=1; 

} else { 
cityName = new Text (strVal); 


) 

if (n==0) n = 1; 
result.set(sum/n); 
context.write(cityName, result); 


) 
对 应 输出 结果 如 下 所 示 : 


Boston 22 

New York 23 

Chicago 23 

Philadelphia 23 

San Francisco 22 

city-6 22 //city ID 6 has no name in cities.csv only temperature 
measurements 

Las Vegas 0 // city of Las vegas has no temperature measurements in 
temperature -csV 


6. 左 半 连接 

左 半 连接 仅 生成 左 表 中 的 行 ， 当 且 仅 当 这 些 行 位 于 右 表 中 。 这 与 之 前 讨论 的 左 反 连 
接 刚 好 相反 ， 且 不 包含 右 表 中 的 数值 。 由 于 仅 考 查 一 个 表 ， 且 另 一 个 表 仅 执行 条 件 连 接 
检查 ， 因 而 左 半 连接 具有 较 好 的 性 能 。 图 3.27 显示 了 左 半 连 接 。 
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图 3.27 
除了 仅 输出 cities.csv 中 的 表 记 录 之 外 ， 左 半 连 接 的 操作 过 程 与 左 外 连接 较为 类 似 。 
7. 交叉 连接 
交叉 连接 利用 右 表 中 的 各 行 匹 配 左 表 中 的 每 一 行 ， 并 生成 笛 卡 儿 又 积 。 需 要 注意 的 
是 ， 由 于 交叉 连接 是 性 能 最 差 的 连接 方式 ， 因 而 仅 在 某 些 特殊 用 例 中 加 以 使 用 。 图 3.28 
显示 了 交叉 连接 。 


图 3.28 


这 将 生成 全 部 城市 的 温度 值 ， 其 中 包括 6x6 条 记录 ( 即 36 条 输出 记录 ) 。 由 于 输出 
结果 相对 庞大 ， 因 而 交叉 连接 较 少 使 用 ， 且 在 大 多 数 时候 ， 该 连接 方式 并 不 十 分 有 用 。 
综 上 所 述 ， 我 们 可 利用 多 种 mapper 方案 实现 不 同 的 连接 方式 。 
Q3. 
之 前 讨论 的 MultipleMappersReducer 作业 即 是 较 好 的 连接 模式 示例 。 


根据 具体 的 用 例 ， 还 可 自 定 义 连接 模式 ， 进 而 生成 期 望 的 输出 结果 。 
34 KE hs 
本 章 讨 论 了 MapReduce 框架 、MapReduce 中 的 各 种 组 件 、MapReduce 范例 中 的 各 种 


模式 ， 进 而 可 用 于 设计 和 开发 MapReduce 代码 ， 以 满足 特定 的 目标 。 
第 4 章 将 讨论 Python 语言 ， 该 语言 可 用 于 执行 大 数据 分 析 。 


第 4 章 Python-Hadoop 科学 
计算 和 大 数据 分 析 


本 章 将 简要 介绍 Python 语言 ， 并 利用 Hadoop 和 Python 数据 包 对 大 数据 进行 分 析 。 
其 中 涉及 基本 的 Python 安装 、 开 启 Jupyter Notebook， 并 围绕 相关 示例 展开 讨论 。 
本 章 主要 涉及 下 列 主题 : 
O 安装 操作 。 
と 下 载 并 安装 Python. 
> 下 载 并 安装 Anaconda. 
> 安 装 Jupyter Notebook. 
ü 数 据 分 析 。 


4.1 安装 操作 


本 节 主 要 介绍 各 项 安装 步 又， 并 利用 Python 解释 器 设置 Jupyter Notebook, 进而 执行 
大 数据 分 析 。 


4.1.1 安装 Python 


读者 可 在 浏览 器 中 访问 http://www.python.org/download/， 并 进入 下 载 页 面 。 随 后 
可 看 到 ，Python 支持 Windows. macOS 和 Linux 环境 ， 并 包含 了 不 同 的 安装 包 ， 如 下 
所 示 : 

Q Windows 版 本 ， 对 应 网 址 为 https://www.python.org/downloads/windows/。 

O macOS 版 本 ， 对 应 网 址 为 https:/www.python.org/downloads/mac-osx/。 

O 源 代码 版 本 (Linux 和 Unix) ， 对 应 网 址 为 https://www.python.org/downloads/ 

SOUTCe/ 。 
当 单 击 下 载 链接 时 ， 将 显示 如 图 4.1 所 示 的 页 面 。 
当 单 击 特定 的 版 本 时 ， 例 如 3.6.5， 将 显示 如 图 4.2 所 示 的 页 面 。 
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© && Download Python | Python.org x 


C | & Python Software Foundation [US] | httos://www.python.org, 


2 python 


About Download: Documentation Community 


Download the latest version for Mac OS X 


Wondering which version to use? Here's more about the difference betwe 
with a different OS? Python for Windows, Linux/UNIX, Ma 


Want to help test development versions of Python? Pre-releases 


Looking for a specific release? 


Python releases by version number. 


Release vers Release date 


92) Python Release Python365 x 


€ > Q |a Python software Foundation [US] | https:/jwwwpython org 


About umentation Community 


Python 3.6.5 


Release Date: 2018-0. 
Python 3.6.5 is the fifth maintenance 
Among the new major new features in Python 3.5 are: 


= PEP 468, Preserving Keyword Argument Order 
Simpler customization of class creation 
PEP 495, Local Time Disambiguation 
EP 498, Literal String Formatting 
・ PEP 506, Adding A Secrets Module To The Standard Libra 


Add a private version to dict 


图 4.2 


Success Storie: 


Click for more. 


News 


'elease of Python 3.5. The Python 3.6 series contains many new features and optimizations 
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读者 可 阅读 相应 的 版 本 信息 ， 并 下 载 对 应 的 Python 版 本 ， 如 图 4.3 所 示 。 


© © 9 A. Pyron Release Python 36.5 


xe el a dl Software Foundation wus) hates: www. Di .org/d 


guum in the 3.6 installer-supplied Python, particularly with pam to SSL cer 


Full Changelog 


Files 


Version 
Gzipped source tarball 

XZ compressed source tarball 
macOS 64-bit/32-bit installer 

macOS 64-bit installer 

Windows help file 

Windows x86-64 embeddable zip file 
Windows x86-64 executable installer 
Windows x86-64 web-based installer 
Windows x86 embeddable zip file 
Windows x86 executable installer 


Windows x86 web-based installer 


Operating System 
Source release 
Source release 
MacOSX 
MacOSX 
Windows 
Windows 
Windows 
Windows 
Windows 
Windows 


Windows 


for Mac OS X 10.6 and later 


for OS X 10.9 and later 
for AMDG4/EM64T/x64 


for AMD64/EM64T/x64 


for AMD64/EM64T/x64 


图 4.3 


MD5 Sum 
ab25d24b1f8cc4990sde979f6dc37883 
9149654a4d6I733ff3284ab9d227e9fd 
bi319337bc68b52fc7d227dca5b6f2f 
37d891988b6aeedd7f03a70171a8420d 
be70202d483c0b7291a666ec66539784 
04cc4fefea14ba74fGae1aBb685ec471 
9e96c934f5d16399f860812b4ac7002b 
640736a3894022d30f7babff77391d6b 
b0b099a4fa479fb37880c15f2b2faf34 
2bb6ad2ecca6088171ef923bca48302. 


596667cb91a9fb20e6f4f1533a213a5 


File Size 
22994617 
17049912 
28093627 
26987706 
8065193 
7190516 
31776112 
1320112 
6429369 
30735232 


1294096 


对 于 相应 的 操作 系统 ， 可 单 击 正确 的 版 本 并 下 载 安装 程序 。 待 下 载 完毕 后 ， 即 可 在 
计算 机 设备 上 安装 Python. 


4.1.2 安装 Anaconda 


标准 的 Python 安装 仍 存在 一 些 局 限 性 ， 因 而 还 需要 安装 Jupyter、pip 以 及 其 他 数据 
包 。Anaconda 是 一 个 完整 的 安装 程序 ， 主 要 用 于 科学 计算 ， 并 包含 了 Python、 标 准 库 和 


许多 有 用 的 第 三 方 库 。 


对 此 , 访问 https://www.anaconda.com/download/, 将 会 看 到 如 图 4.4 所 示 的 下 载 页 面 
针对 当前 平台 ， 可 下 载 相 应 的 Anaconda 版 本 ， 并 按照 https://docs.anaconda.com/ 


anaconda/install/ 中 的 指示 进行 安装 。 


待 安装 完毕 后 , 即 可 打开 Anaconda Navigator( 在 Windows 环境 下 , Anaconda Navigator 
位 于 “开始 ”菜单 中 ;在 Mac 环境 下 ， 简 单 地 搜索 该 程序 即 可 ) 。 


Qz: 


Æ Linux 环境 


， 一 般 可 采用 命令 行 启动 Jupyter Notebook, 


例如 ， 在 Mac 环境 下 ，Anaconda Navigator 如 图 4.5 所 示 。 
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OO O downloads | ansconds x 


€ > C |à Secure _https://wwwanaconda.com/downiaad/ttmacos| sj 


Documentation Blog Anaconda Cloud Q 


Wnatis Anaconda? Products Support Community Resouces about EE 


Don't Miss Anac 


Contact 


(O ANACONDA 


IdaCon Apr 8-11 Austin TX! 


Download Anaconda Distribution 


Version 51 | Release Date: February 15, 2018. 


High-Performance Distribution Package Management Portal to Data Science 
Easily install 1,000* data 


science packages 


Manage packages, 
dependencies and 
environments with conda 


Uncover insights in your data 
and create interactive 
visualizations 


Download for Your Preferred Platform 


{ ANACONDA NAVIGATOR 


‘ft Home ‘Applications on 


as. 
jupyter 
MU 


Jupyterab notebook 
03112 san 
Anexcensibie envronment for interactve Web-based, interactive computing notebook 


‘and reprodueibie computing, based on the envronrert. EdFand run human-readable 
Jupytar Notebook and Architecture, docs wale describing the daca analysis. 


ase oot) 


spyder vscode 


EI 


Scientific PYthor Development 
ErvRorment. Powerful Python IDE weh. 
advanced adting, interactive testing, 
debugging anc introspection Features 


aum 
Streamlined code editor wen support for. 


evelopment operations lice debugging, 


Documentation task ruming and version contro. 


Developer Blog 
tanh 


Feedback 


Yo 7 


Fd 4.5 


qtconsole 
aaa 
PyQt GUI that supports inine Figures, proper 


munine edtng wn syntax hignighting, 
graphical cailtips, and more. 


glueviz 
aua 


 Mültióimersionai data veuatzaton across 
las. Explore relationships within and among 
related datasets. 
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在 使 用 Anaconda Navigator 时 ， 可 简单 地 单 击 Jupyter Notebook 中 的 Launch 按钮 并 
启动 Japyter， 如 图 4.6 所 示 。 


Œ © localhost.88: 


ご Jupyter 


Files | Running Clusters 


Select items to periorm actions on them. Upload New» る 


o. my Name Last Modified 


图 4.6 

Conda 命令 是 目前 最 为 简单 、 实 用 的 工具 ， 并 可 成 功 地 对 Python 进行 设置 。Conda 
支持 协同 存在 的 多 种 环境 ， 因 而 可 同时 设置 Python 2.7 和 Python 3.6 环境 。 对 于 深度 学 习 
来 说 ， 还 可 将 TensorFlow 设置 为 独立 环境 ， 等 等 。 
Q ig. 

读者 可 访问 https://conda.io/docs/user-guide/install/index. html 下 载 Conda 

Conda 下 载 页 面 如 图 4.7 所 示 。 

€ > Q [a Secure | nttps://conda.iojdoce/usc index htn EE 


# Conda 


cD 
3 User guide Installation 


Overview. 


Docs » User guide » Installation © Edit on GitHub 


* System requirements 
Concepts 

* Regular installation 
Getting started with ads * Installing in silent mode 


8 Installation. ・ Installing conda on a system that has other Python installations or packages 

System requirements 
The fastest way to obtain conda is to install Miniconda, a mini version of Anaconda that includes 
only conda and its dependencies. If you prefer to have conda plus over 720 open source packages, 
install Anaconda. 


Regular installation 
Installing in silent mode 
Installing conda on a system that 


has other Python Installations or. 


praami We recommend you install Anaconda for the local user, which does not require administrator 


permissions and is the most robust type of installation. You can also install Anaconda system wide, 


Configuration 
which does require administrator permissions. 


Tutorials 


Tasks For information on using our graphical installers for Windows or macOS, see the instructions for 
Cheat sheet installing Anaconda. 


Troubleshooting 


System requirements 


・ 32- or 64-bit computer. 

。 For Miniconda—400 MB disk space. 

・ For Anaconda—Minimum 3 GB disk space to download and install 
。 Windows, macOS or Linux. 


图 4.7 
待 Conda 下 载 完 毕 后 ， 可 遵循 对 应 的 指令 将 Conda 安装 至 本 地 机 器 上 ， 如 图 4.8 所 示 。 
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€ 3 C |â Secure nttps:/condaiofmimiconds html 


Conda 


Miniconda 


- 6 


Windows Mac OSX 


64-bit (exe installer) 64-bit (bash installer) 


32-bit (exe installer) 


64-bit (exe installer) 64-bit (bash in 


32-bit (exe Installer) 


Other resources: 
Miniconda with Python 3.6 for Power 


Miniconda with Python 2.7 for Power8 


* Miniconda Docker images 
・ Installation instructions 


MDS sums for the installers 
* conda change log 


* o 


cro Ue> Contents 


à 


Linux 


64-bit (bash installer) 


(bash installer) 


(bash installer) 


These Miniconda installers contain the conda package manager and Python. Once Miniconda is installed, you can 
use the conda command to install any other packages and create environments, etc. For example: 


$ conda install numpy 


图 4.8 


在 命令 行 中 输入 conda list 将 显示 所 安装 的 数据 包 ， 进 而 可 查看 安装 包 的 版 本 ， 如 图 4.9 


所 示 。 


rs-MacBook-Pro: jarallaS conda list 


# packages in environment at /anaconda?2: 
# 

ipyw. jlab. nb. ext. conf 

affine 

alabaster 

anaconda 

anaconda-client 
anaconda-navigator 
anaconda-project 

appnop 

appscript 

asnicrypto 

astroid 

astropy 

attrs 

babel 

backports 
backports.functools lru cache 1.5 
backports.shutil get terminal size 1.0.0 
backports. abc 

beautifulsoup4 

bitarray 

bkcharts 

blas 

blaze 

bleach 

blinker 

hakah 


图 4.9 


conda-forge 
conda-forge 


conda-forge 


conda-forge 
conda-forge 
conda-forge 
conda-forge 
conda-forge 
conda-forge 
conda-forge 
conda-forge 
conda-forge 


conda-forge 
conda-forge 
conda-forge 
conda-forge 


openbtas ^ conda-fo 
Py27.0 ^ conda-forge 
py-0 conda-forge 
py-9 conda-forge 


LR 


基于 conda 命令 的 数据 包 的 安装 过 程 较为 简单 ， 可 采用 conda install <packagename> 
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Solving pac 
Package plan for installation in environment /onacondo? 
The following packages wi UPDATED 
conda: 4.3, ð conda-forge -- 
Proceed C[y]/m? y 


1 Time: 0:00:00 


图 4.10 


要 使 用 到 其 


需要 注意 的 是 ，conda install Jupyter 将 安装 Jupyter Notebook， 该 过 程 需 
他 数据 包 ， 如 图 4.11 所 示 。 


- jupyter 


The following packages will be downloaded 
packag: 


libxml2-2.9.8 

backports. abc-0.5 
jsonschema-2.6.0 
markupsafe-1.0 
notebook-5.4.1 
libpng-1.6.34 
bleach-2.1.3 
ca-certificates-2018.03.07 
decorator-4.3 

xz-5.2.3 

gstreamer-1.14.0 
pyzmq-17.0.0 py27h14¢3975_ 
jupyter_console-5.2.0 py27hc6bee7 


1 
-| 
1 hf84eae3_0 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
icu-58 1 9c2bf20 1 

1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 


py27h7b3c97b_0 
py27h7edSao4. Q 
py27h97b282: 


hb453b48_1 
1 
1 


ipython-5.6.0 py27_0 
pandocfilters-1.4.2 py27h428ele5 1 
tornado-5.0.1 py27_1 
prompt toolkit-1.0.15 py27h1b593e1_0 
sip-4.19.8 py27hf484d3e. 0 
ptyprocess-0.5.2 py27háccbi4c 0 
widgetsnbextension-3.2.0 py27 0 
openssl-1.0.20 h20670df 0 


simplegeneric-0.8.1 
freetype-2.8 
pickleshare-0.7 
pygnents-2.2.0 
1ibsodtum-1.9.16 
gst-plugins-base-1.14.0 
zeroma-4.2.5 


hilbed415 © 
hbbd89ob_1 
h439df22_9 
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下 面 尝试 使 用 另 一 个 较为 
conda install pandas 


对 应 输出 结果 如 图 4.12 所 示 。 


5a804 /]# conda install pandas 
Solving environment: done 


要 的 命令 ， 如 下 所 示 : 


## Package Plan ## 
environment location: /root/miniconda2 


added / updated specs: 
- pandas 


The following packages will be downloaded: 


package 1 
aioe 
intel-openmp-2018.0.0 1 
mkl_fft-1.0.1 | py27h3010b51_0 
pytz-2018.4 1 py27_0 
mk1-2018.0.2 1 1 
pandas-0.22.0 | py27hF484d3e_0 
mkl. random-1.0.1 | — py27h629b387 0 
Libgfortran-ng- 1 hdf63c60_3 
| py27hdbf6ddf_1 


numpy-1.14.2 


Total: 
following NEW packages will be INSTALLED: 


intel-openmp:  2018.0.0-8 
libgfortran-ng: 7.2.0-hdf63c60 3 

mkl: 2018.0.2-1 

mku fft: 1.0.1-py27h3010b51 0 

mkl. random: 1.0.1-py27h629b387. 0 

nump 1.14.2-py27hdbf6ddf 1 
pandas: 0.22.0-py27hf484d3e 0 
pytz: 2018.4-py27.0 


图 4.12 
其 他 较为 重要 的 数据 包 还 包括 : 


conda install scikit-learn 

conda install matplotlib 

conda install seaborn 

除 此 之 外 ， 还 需要 安装 其 他 数据 包 ， 进 而 访问 HDFS (Hadoop) 以 及 打开 文件 ， 如 
下 所 示 : 


pip install hdfs 
pip install pyarrow 
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通过 运行 下 列 命令 ， 可 生成 Jupyter Notebook 配置 内 容 : 
[root@4b726275a804 /]# jupyter notebook --generate-config 
Writing default config to: /root/.jupyter/jupyter notebook config.py 
Jupyter 需要 身份 验证 ， 即 默认 的 令 牌 。 然 而 ， 如 果 需 要 创建 基于 密码 的 验证 ， 可 运 
行 下 列 命令 创建 相应 的 密码 : 
[roote4b726275a804 /]# jupyter notebook password 
Enter password: 
Verify password: 
[NotebookPasswordApp] Wrote hashed password to 
/root/.jupyter/jupyter notebook config.json 
输入 下 列 命令 可 启动 Jupyter Notebook: 
jupyter notebook --allow-root --no-browser --ip-* --port-8888 
该 命令 运行 时 ， 将 显示 如 图 4.13 所 示 的 内 容 。 


[root@4b7262750804 /]# jupyter notebook --allow-roo no wser --ipe* --port=8888 
T ng on all IP addresses ond not using encryption. This is not recommended. 


ea 
The Jupyte ok g at: 


http://[all ip addresses oi system] ;8888/ 
Use Control-C to stop this r and shut down all kernels (twice to skip confirmation) 


图 4.13 


当 访 问 localhost:8888 时 , 浏览 器 将 开启 登录 页 面 , 并 输入 之 前 创建 的 密码 , 如 图 4.14 
所 示 。 


X C © localhost:8888/login?next=%2Ftree%3F 


ご Jupyter 


图 4.14 


在 输入 密码 后 ，Jupyter Notebook 将 显示 现 有 的 Notebook 。 当 前 尚 不 存在 相关 
Notebook， 下 面 将 对 此 了 予以 创建 。 对 此 ， 单 击 New 按钮 ， 并 对 即将 创建 的 Notebook 选择 
Python 2， 如 图 4.15 所 示 。 

图 4.16 显示 了 新 创建 的 Notebook， 并 可 于 其 中 输入 某 些 测试 代码 。 

至 此 ， 我 们 安装 了 Python 和 Jupyter Notebook， 下 面 将 以 此 进行 数据 分 析 。 在 4.2 节 
中 ， 我 们 将 深入 考查 不 同 的 数据 分 析 类 型 。 
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で © localhost:8888/tree? 


ご Jupyter 


Files Running Clusters 
Select items to perform actions on them. 


0 ~ M/ 


Œ | ① localhost:8888/notebooks/Untitled.ipynb?kernel_name=python2 
二 Jupyter Untitled Last checkpoint: an hour ago (autosaved) 
File Edit View Inset Cel Kemel Widgets Help 


回 + x Q KM ^ & MRun E C P Code 


In [1]: import numpy as np 


In [2]: import pandas as pd 


Int): | 
图 4.16 
42 数据 分 
在 本 书 辅助 网 站 中 下 载 OnlineRetail.esv 文件 ， 随 


基于 Pandas 的 本 地 文件 读 取 操作 如 下 所 示 : 


import pandas as pd 


Upload [News] < 
a 
Python 2 
Text File 
Folder 


Terminal 


e | Logout 


Trusted # | Python2 O 


析 


后 利用 Pandas 加 载 文件 。 


path = '/Users/sridharalla/Documents/OnlineRetail.csv' 


df = pd.read csv (path) 


然而 , 考虑 到 我 们 将 在 Hadoop 集群 中 分 析 数 据 ， 


因而 应 使 用 hdfs, 而 不 是 本 地 系统 。 


下 列 代码 显示 了 如 何 将 hdfs 文件 加 载 至 pandas DataFrame 中 : 


import pandas as pd 
from hdfs import InsecureClient 


client hdfs = InsecureClient ('http://localhost:9870') 
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with client hdfs.read('/user/normal/OnlineRetail.csv', encoding = 'utf-8') 
as reader: 
df = pd.read csv (reader, index col-0) 


输入 下 列 命令 : 
df.head(3) 
对 应 输出 结果 如 图 4.17 所 示 。 


In [11]: df.head(3) 


Outil]:  ImvoiceNo StockCode Description Quantity InvoiceDate UnitPrice CustomerID 


WHITE HANGING HEART T-LIGHT 6 12/1/10 


HOLDER 8256 2.55 17850.0 


WHITE METAL LANTERN a- me 339 178500 


12/1/10 


536365 844068 CREAM CUPID HEARTS COAT HANGER 8 826 17850.0 


图 4.17 
图 4.17 中 显示 了 DataFrame 中 的 前 3 项 内 容 。 
下 面 可 对 相关 数据 进行 试验 ， 输 入 下 列 命令 : 
len (df) 
对 应 输出 结果 如 下 所 示 : 
65499 
这 表示 为 DataFrame 的 长 度 (UR) 。 具 体 来 说 ， 当 前 在 整个 文件 中 存在 65499 


项 条 目 。 


执行 下 列 操作 : 


df2 = df.loc[df.UnitPrice > 3.0] 
df2.head (3) 


此 处 定义 了 名 为 df2 的 新 DataFrame 并 将 其 设置 为 : DataFrame 中 全 部 数据 项 的 单价 


均 大 于 3。 


随后 显示 前 3 项 内 容 ， 如 图 4.18 所 示 。 


InvoiceNo StockCode Description Quantity InvoiceDate UnitPrice CustomerlD 


12/10 


536365 71053 WHITE METAL LANTERN 6 826 3.39 17850.0 


KNITTED UNION FLAG HOT WATER 6 12/1/10 339 


BOTTLE 826 178500 


RED WOOLLY HOTTIE WHITE HEART Id 3.39 17850.0 


图 4.18 
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下 列 代码 将 选取 单价 大 于 3 的 数据 索引 ， 并 将 其 描述 内 容 设 置 于 Miscellaneous 中 。 
随后 将 显示 前 3 项 内 容 ， 如 下 所 示 : 


df.loc[df.UnitPrice > 3.0, ['Description']] = 'Miscellaneous' 
df.head(3) 


对 应 结果 如 图 4.19 所 示 。 


In [45]: df.loc[df.UnitPrice > 3.0, ['Description']] = 'Miscellaneous' 
dE.head(3) 


Ovt[45]3 InvoiceNo StockCode Description Quantity InvoiceDate UnitPrice CustomerID ‘Country 


WHITE HANGING HEART T-LIGHT 
HOLDER 


12/1/10 United 
1 8:26 2.55 17850.0 Kingdom 


United 


12/10 
71053 Miscellaneous 1 8:26 Kingdom 


17850.0 


United 


12/10 
536365 84406B CREAM CUPID HEARTS COAT HANGER 1 826 Kingdom. 


178500 


图 4.19 


不 难 发 现 ， 由 于 单价 为 3.39 美元 CKF 30 ， 因 而 项 目 2〈 对 应 的 索引 为 D 包含 了 
Miscellaneous 修改 后 的 描述 内 容 。 

下 列 代码 输出 包含 索引 2 的 数 据 : 

df.loc[2] 


输出 结果 如 图 4.20 所 示 。 


In [55]: df.10c|2]| 


Out[55]: InvoiceNo 536365 
StockCode 84406B 
Description CREAM CUPTD HEARTS COAT HANGER 


Quantity 8 
InvoiceDate 12/1/10 8:26 
UnitPrice 2.75 
CustomerID 17850 
Country United Kingdom 
Name: 2, dtype: object 


图 4.20 
最 后 ， 还 将 创建 Quantity 列 的 示 意 図 , 如 下 所 示 : 
df['Quantity'].plot() 
对 应 输出 结果 如 图 4.21 所 示 。 
除 此 之 外 ， 还 存在 其 他 一 些 函 数 需要 我 们 进一步 地 了 解 ， 例 如 .appendO 函 数 。 
下 面 定义 一 个 新 的 df 対象, 即 df3, 我 们 将 其 设置 为 df 的 前 10 行 并 加 上 df 的 200 一 
209 行 。 换 而 言 之 ， 将 200—209 行 添加 至 df 的 0~9 行 之 后 ， 如 下 所 示 : 
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df3 = df[0:10] .append (d£ [200:210]) 


df3 


In [64]: 


Out[64]: 


df['Quantity'].plot|) 


«matplotlib.axes. subplots.AxesSubplot at 0x1la3c4b50> 


对 应 输出 结果 如 图 4.22 所 示 。 


In [35]: dE3 = d£[0:10].append(d£[200:210]) 


df3 


Out [35]: 


ImvoiceNo StockCode 


Description Quantity 


InvoiceDate UnitPrice CustomerlD 


Country 


536365 
536365 
536365 
536365 
536365 
536365 
536365 
536365 
536366 
536367 
536389 
536389 
536389 
536389 
536389 
536389 
536389 
536389 
536389 
536389 


85123A 
71053 
844068 
84029G 
84029E 
22752 
21730 
22633 
22632 
84879 
35004C 
35004G 
850148 
85014A 
22193 
22726 
22727 
22192 
22191 
22195 


WHITE HANGING HEART TLIGHT HOLDER 
Miscellaneous 

CREAM CUPID HEARTS COAT HANGER 
Miscellaneous 

Miscellaneous 

Miscellaneous 

Miscellaneous 

HAND WARMER UNION JACK 

HAND WARMER RED POLKA DOT 
ASSORTED COLOUR BIRD ORNAMENT 
Miscellaneous 

Miscellaneous 

Miscellaneous 

Miscellaneous 

Miscellaneous 

Miscellaneous 

Miscellaneous 

Miscellaneous 

Miscellaneous 


LARGE HEART MEASURING SPOONS 


图 4.22 


412/110 8:26 
12/1/10 826 
12/1/10 826 
12/1/10 8:26 
12/1/10 8:26 
12/1/10 826 
125/10 826 
12/1/10 828 
12//10828 
12/1/10 834 
121/10 10:03 
12/1110 10:03 
121/10 10:03 
12/4/10 10:03 
12/1/10 10:03 
42/1/10 10:03 
12/110 10:03 
42/1/10 10:03 
12/10 10:03 
12/1/10 10:03 


255 
339 
275 
339 
339 
765 
425 
185 
185 
169 
545 
635 
595 
595 
850 
375 
375 
850 
850 
165 


178500 
178500 
17850.0 
178500 
178500 
178500 
178500 
17850.0 
178500 
13047.0 
124310 
124310 
124310 
124310 
124310 
124310 
124310 
124310 
124310 
124310 


United Kingdom 
United States 
United Kingdom 
United States 
United States 
United States. 
United States 
United Kingdom 


United Kingdom 


United Kingdom 
United States. 


United States 
United States 
United States 
United States 
United States 
United States 
United States 
United States 


Australia 
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假设 仅 考查 StockCode, Quantity, InvoiceDate 和 UnitPrice 列 ， 对 此 可 定义 一 个 新 的 
DataFrame 对 象 ， 且 仅 包含 这 几 个 数据 列 ， 如 下 所 示 ; 
df4 = pd.DataFrame (df, columns-['StockCode', 'Quantity', 


"InvoiceDate', 'UnitPrice'] 
df4 .head (3) 


对 应 结果 如 图 4.23 所 示 。 


In [40]: df4 = pd.DataFrame(df, columns-['StockCode', 'Quantity', 'InvoiceDate', 'UnitPrice']) 
dE4 .head (3) 


out[40] : 
StockCode Quantity InvoiceDate UnitPrice 


0 85123A 12/1/10 8:26 255 


1 71053 12/110 8:26 3.39 
2 84406B 12/1/10 8:26 275 


图 4.23 
Pandas 提供 了 不 同 的 数据 组 合 方式 。 特 别 地 ， 我 们 可 以 执行 合并 、 连 接 、 附 加 操作 。 
之 前 已 经 讨论 了 附加 操作 ， 下 面 将 查看 连接 (concatenate) 操作 。 
考查 下 列 代码 : 


dl 
d2 


df£[0:10] 
df£[10:20] 


d3 = pd.concat([d1, d2]) 

d3 

基本 上 ， 可 将 dl 设置 为 DataFrame 对 象 ， 其 中 包含 了 df 中 的 前 10 个 索引 。 随 后 
可 将 d2 设置 为 df 中 后 续 的 10 个 索引 。 最后, 将 d3 设置 为 dl 和 d2 的 连接 结果 ， 即 连接 
后 的 结果 ， 如 图 4.24 所 示 。 

此 外 ， 还 可 指定 相应 的 键 ， 进 而 方便 地 区 分 dl 和 d2。 考 查 下 列 代码 行 : 


d3 = pd.concat ([d1, d2], keys=['dl', 'd2"]) 


对 应 结果 如 图 4.25 所 示 。 

不 难 发 现 ， 这 可 方便 地 区 分 两 个 数据 集 。 我 们 可 以 任意 调用 键 ， 甚 至 像 x A y 这 样 
简单 的 键 也 可 以 。 如 果 定 义 了 3 个 数据 集 dl 、d2、d3， 则 对 应 键 表示 为 x, y, z)， 并 以 此 
区 分 这 3 个 数据 集 。 
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In [166]: di = df[0:10] 
d2 = a£[10:20] 


43 = pd.concat ([d1, 42]) 
a3 


out [166] : 


InvoiceNo stockCode Description Quantity InvoiceDate UnitPrice CustomeriD Country 


536385 85123A WHITE HANGING HEART TLIGHT HOLDER € 12110825 255 178500 United Kingdom 
536306 —— 71053 WHITE METAL LANTERN 6 12110823 339 1/8500 United Kingdom 
536365 844068 CREAM CUPID HEARTS COAT HANGER 8 12/0825 275 178500 United Kingdom 
536365  84029G KNITTED UNION FLAG HOT WATER BOTTLE 12//10825 339 178500 United Kingdom 
536365 © 84029E RED WOOLLY HOTTE WHITE HEART. 12//10825 339 178500 United Kingdom 
530365 22752 SET 7 BABUSHKA NESTING BOXES 12nm0825 765 17850.0 Ummeqkngdom 
536365 。 21730 GLASS STAR FROSTED T-LIGHT HOLDER 12/0825 425 178500 United Kingdom 
536300 。 22633 HAND WARNER UNION JACK 12//10828 185 178500 United Kingdom 
536300 。 22632 HAND WARMER RED POLKA DOT 12//10828 185 178500 United Kingdom 
530307 84879 ASSORTED COLOUR BIRD ORNAMENT 12/0834. 109 130470 United Kingdom 
536367 。 22745 POPPYS PLAYHOUSE BEDROOM 12//10834 — 210 130470 United Kingdom 
536367 22748 POPPYS PLAYHOUSE KITCHEN 12//10834 。 210 130470 United Kingdom 
536367 22749 FELTCRAFT PRINCESS CHARLOTTE DOLL 12//10834 375 130470 United Kingdom 
536367 22310 IVORY KNITTED NUG COSY 12010834 165 13047.0 United Kingdom 
536367 84969 BOX OF 6 ASSORTED COLOUR TEASPOONS 12/10834 。 425 130470 United Kingdom 
536367 22623 BOX OF VINTAGE JIGSAW BLOCKS 3 12110834 130470 United Kingdom 
536367 BOX OF VINTAGE ALPHABET BLOCKS 12//10834 130470 United Kingdom 
536367 HOME BUILDING BLOCK WORD 12010834 430470 United Kingdom 
536367 LOVE BUILDING BLOCK WORD 12//10834 130470 United Kingdom 
536367 RECIPE BOX WITH METAL HEART 12//10834 130470 United Kingdom 


图 4.24 


zn [179]: di = df[0:10] 
d2 = df[10:20] 


d3 = pd.concat (Idi, d2], keys=[* 
da 


out [179]: 
ImwoceNo StockCode Description invoiceDate UnitPrice CustomeriD. Country 


516366 。 851234 — WHITE HANGING HEART TLIGHT HOLDER 120926 478502 United Kingdom 
536365 71053 WHITE METAL LANTERN 1210826 478502 United Kingdom 
510386 — 844008 CREAMCUPD HEARTS COAT HANGER 1210828 178500 United kingoom 
84029G KNITTED UNION FLAG HOT WATER BOTTLE 1280828 478500 United Kingdom 
84029E RED WOOLLY HOTTIE WHITE HEART. 121/0826 478502 United Kingdom 
22752 SET 7 BABUSHKA NESTING BOXES 12110820 178502 United Kingdom 
2730 GLASS STAR FROSTED TLIGHT HOLDER 12180826 478502 United Kingdom 
22633 HAND WARMER UNION JACK 12100828 478502 United Kingdom 
520300 22032 HAND WARNER RED POLKA COT 12010828 478502 United Kingdom 
526257 84879 ASSORTED COLOUR BRD ORNAMENT 12/0824 430470 United Kingdom 
5162687 22745 POPPYS PLAYHOUSE BEDROOM 12110834 430472 United Kingdom 
530307 22748 POPPYS PLAYHOUSE KITCHEN 12510834 130470 United Kingdom 
536367 22749 FELTCRAFT PRINCESS CHARLOTTE DOLL 12110834 130470 United Kingdom 


536367 — 22:10 IVORY KNITTED MUG COSY 121110834 130470 United Kingdom 


536367 04869 BOX OF6 ASSORTED COLOUR TEASPOONS 1271/0034 430479 United kingdom 
E MEE BOX OF VINTAGE JIGSAN BLOCKS 12410834 430470 United Kingdom 
536367 。 2222 BOKOF VINTAGE ALPHABET BLOCKS 1210834 130470 United Kingdom 
suo 21754 HOME BUILDING ELOCK WORD 1271/10034 430472 United Kingdom 
526367 — 21756 LOVE BUILDING ELOCK WORD 121n08:34 130470 UnitedKirodom 
536367 。 207 RECIPE BOX WITH METAL HEART 12110834 130470 United Kingdom 


图 425 
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下 面 考查 基于 不 同 列 的 连接 操作 。 默 认 状 态 下 ，concatO 函 数 使 用 外 连接 ， 这 意味 着 
将 组 合 所 有 的 列 。 考 查 两 个 数据 集 A 和 B， 其 中 ， 集 合 A 包含 了 隶属 于 dl 中 的 所 有 列 
名 ; 集合 B 包含 了 隶属 于 d2 的 所 有 列 名 。 如 果 采 用 之 前 的 代码 连接 dl 和 d2， 列 将 通过 
A fll B 的 并 集 加 以 表示 。 

除 此 之 外 ， 还 可 指定 使 用 内 连接 ， 即 A 和 了 B 的 交集 。 考 查 下 列 代码 行 : 

d4 = pd.DataFrame(df, columns=['InvoiceNo', 'StockCode', 

'Description']) [0:10] 


d5 = pd.DataFrame (df, columns-['StockCode', 'Description', 
'Quantity']) [0:10] 


pd.concat([d4, d5]) 
对 应 结果 如 图 4.26 所 示 。 


In [183]: d4 = pd.DataFrame(df, columns-['InvoiceNo', 'StockCode', 'Description']) [0:10] 
d5 = pd.DataFrame(df, columns-['StockCode', 'Description', 'Quantity']) [0:10] 


pd.concat([d4, d5j 


Out [183]: 
Description InvoiceNo Quantity StockCode 


WHITE HANGING HEART T-LIGHT HOLDER 536365 NaN 85123A 
WHITE METAL LANTERN 536365 NaN 71053 

CREAM CUPID HEARTS COAT HANGER 536365 NaN 844068 
KNITTED UNION FLAG HOT WATER BOTTLE 536365 NaN 84029G 
RED WOOLLY HOTTIE WHITE HEART. 536365 NaN 84029E 

SET 7 BABUSHKA NESTING BOXES 536365 NaN 22752 

GLASS STAR FROSTED T-LIGHT HOLDER 536365 NaN 21730 
HAND WARMER UNION JACK 536366 NaN 22633 

HAND WARMER RED POLKADOT 536366 NaN 22632 
ASSORTED COLOUR BIRD ORNAMENT 536367 NaN 84879 
WHITE HANGING HEART T-LIGHT HOLDER NaN 60 85123A 
WHITE METAL LANTERN NaN 6.0 71053 

CREAM CUPID HEARTS COAT HANGER NaN 8.0 844068 
KNITTED UNION FLAG HOT WATER BOTTLE Nan 6.0 84029G 
RED WOOLLY HOTTIE WHITE HEART. NaN 6.0 84029E 

SET7 BABUSHKANESTING BOXES 20 22752 

GLASS STAR FROSTED T-LIGHT HOLDER 60 21730 
HAND WARMER UNION JACK 22633 

HAND WARMER RED POLKA DOT 22632 
ASSORTED COLOUR BIRD ORNAMENT 1 84879 


图 4.26 
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通过 观察 可 知 ， 其 中 使 用 了 全 部 列 标记 。 
如 前 所 述 ， 默 认 状 态 下 ，concatO 函 数 使 用 外 连接 。 因 此 ，pd.concat([d4, d5]) 等 同 于 : 


pd.concat([d4, d5], join-'outer') 


下 面 尝 试 使 用 内 连接 。 保 持 其 他 内 容 保 持 不 变 , 仅 修改 concatO 函 数 调用 , 如 下 所 示 : 


pd.concat([d4, d5], join-'inner') 


对 应 输出 结果 如 图 4.27 所 示 。 


In [184]: pd.DataFrame(df, columns-['InvoiceNo', 'StockCode', 'Description']) [0:10 
d.DataFrame(df, columns-['StockCode', 'Description', 'Quantity']) [0:10 


pd.concat([d4, d5], join = 'inner') 


out [184]: 
StockCode Description 


85123A WHITE HANGING HEART T-LIGHT HOLDER 
71053 WHITE METAL LANTERN 
844068 CREAM CUPID HEARTS COAT HANGER 
84029G KNITTED UNION FLAG HOT WATER BOTTLE 
84029E RED WOOLLY HOTTIE WHITE HEART. 
22752 SET 7 BABUSHKA NESTING BOXES 
21730 GLASS STAR FROSTED T-LIGHT HOLDER. 
22633 HAND WARMER UNION JACK 
22632 HAND WARMER RED POLKA DOT 
84879 ASSORTED COLOUR BIRD ORNAMENT 
85123A WHITE HANGING HEART T-LIGHT HOLDER 
71053 WHITE METAL LANTERN 
844068 CREAM CUPID HEARTS COAT HANGER 
84029G KNITTED UNION FLAG HOT WATER BOTTLE 
84029E RED WOOLLY HOTTIE WHITE HEART. 
22752 SET 7 BABUSHKA NESTING BOXES 
21730 GLASS STAR FROSTED T-LIGHT HOLDER 
22633 HAND WARMER UNION JACK 
22632 HAND WARMER RED POLKA DOT 
84879 ASSORTED COLOUR BIRD ORNAMENT 


图 4.27 


可 以 看 到 ， 这 一 次 仅 包含 了 d4 和 d5 所 共有 的 列 标记 。 再 次 说 明 ， 我 们 可 以 添加 键 ， 
进而 可 方便 地 区 分 两 个 表 中 的 数据 集 。 
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合并 过 程 则 稍 显 复杂 。 此 处 ， 我 们 可 以 选择 外 部 连接 、 内 部 连接 、 左 连接 和 右 连接 ; 
除 此 之 外 ， 还 可 选取 所 合并 的 列 。 

下 面 修改 d4 和 ds 的 原始 定义 ， 如 下 所 示 : 

d4 = pd.DataFrame(df, columns=['InvoiceNo', 'StockCode', 

'Description']) [0:11] 

d5 = pd.DataFrame (df, columns-['StockCode', 'Description', 

'Quantity']) [10:20] 

其 中 ，d4 结尾 处 的 中 括号 表示 特定 DataFrame 的 前 11 个 元 素 ; d5 结尾 处 的 中 括号 
表示 ， 将 10 一 20 的 元 素 置 于 d5 中 ， 而 不 是 全 部 元 素 。 

值得 注意 的 是 ， 其 中 包含 了 重合 的 元 素 ， 且 很 快 即 会 发 挥 其 功效 。 

下 面 首先 讨论 merge0 函 数 ， 并 执行 d4 和 d5 的 左 连接 ， 如 下 所 示 : 


pd.merge(d4, d5, how-'left') 


对 应 结果 如 图 4.28 所 示 。 


In [222]: | pd.merge(d4, d5, how-'left') 


Out [222] : 
InvoiceNo StockCode Description Quantity 


536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 
536365 71053 WHITE METAL LANTERN 
536365 844068 CREAM CUPID HEARTS COAT HANGER 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. 
536365 22752 SET 7 BABUSHKA NESTING BOXES 
536365 21730 | GLASS STAR FROSTED TLIGHT HOLDER 
536366 22633 HAND WARMER UNION JACK 
536366 22632 HAND WARMER RED POLKA DOT 


0 
1 
2 
3 
4 
5 
6 
7 
8 
9 


536367 84879 ASSORTED COLOUR BIRD ORNAMENT 


2 
[i 


536367 22745 POPPY'S PLAYHOUSE BEDROOM 


图 4.28 


此 处 使 用 了 d4-d5 对 中 左 DataFrame 的 所 有 列 , 并 将 ds 的 列 添加 至 其 中 。 可 以 看 到 ， 
由 于 定义 了 10 一 20 元 素 ， 因 而 不 存在 0 一 10 索引 对 应 的 量 值 。 然 而 ， 元 素 11 均 位 于 d5 
和 dà 中 ， 因 而 可 以 看 到 Quantity 下 对 应 的 数据 值 。 
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类 似 地 ， 可 针对 右 连 接 执行 相同 的 操作 ， 如 下 所 示 : 
pd .merge (d4, d5, how-'right') 


对 应 结果 如 图 4.29 所 示 。 


In [223]: pd.merge(d4, d5, how='right') 


Out [223]: 
InvoiceNo StockCode Description Quantity 


536367 22745 POPPY'S PLAYHOUSE BEDROOM 
22748 POPPY'S PLAYHOUSE KITCHEN 
22749 FELTCRAFT PRINCESS CHARLOTTE DOLL 
22310 IVORY KNITTED MUG COSY 
84969 BOXOF 6 ASSORTED COLOUR TEASPOONS 
22623 BOX OF VINTAGE JIGSAW BLOCKS 
22622 BOX OF VINTAGE ALPHABET BLOCKS 
21754 HOME BUILDING BLOCK WORD 
21755 LOVE BUILDING BLOCK WORD 
21777 RECIPE BOX WITH METAL HEART 


图 4.29 
当前 使 用 了 d5 中 的 列 标记 ， 以 及 ds 中 的 数据 (跨越 元 素 10~20) 。 通 过 观察 可 知 ， 
索引 0 处 的 数据 与 d4 实现 了 共享 ， 因 而 结束 于 当前 特定 表 中 ， 其 原因 在 于 ， 元 素 11 CR 
引 为 10) 与 d5 的 第 一 个 元 素 重 登 。 
下 面 执行 内 部 连接 ， 如 下 所 示 : 
pd.merge(d4, d5, how-'inner') 


对 应 结果 如 图 4.30 所 示 。 


In [224]: pd.merge(d4, d5, how-'inner') 


Out [224] : 


InvoiceNo StockCode Description Quantity 


0 536367 22745 POPPY'S PLAYHOUSE BEDROOM 6 


图 4.30 


内 部 连接 意味 着 它 只 包含 两 个 DataFrames 共有 的 元 素 。 在 当前 示例 中 ， 对 应 元 素 表 
示 为 元 素 11, 其 索引 为 df 中 的 索引 10。 由 于 该 元 素 位 于 d4 和 d5 中 , 因而 包含 了 InvoiceNo 
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和 Quantity 的 数据 CInvoiceNo 的 数据 位 于 d4 中 : Quantity 的 数据 位 于 ds 中 ) 。 
下 面 执行 外 部 连接 ， 如 下 所 示 : 


pd.merge (d4, d5, how-'outer') 
对 应 结果 如 图 4.31 所 示 。 


In [225]: pd.merge(d4, d5, how-'outer') 


InvoiceNo StockCode Description Quantity 


536365 85123A WHITE HANGING HEART T-LIGHT HOLDER NaN 
536365 71053 WHITE METAL LANTERN NaN 
536365 84406B CREAM CUPID HEARTS COAT HANGER NaN 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE NaN 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. NaN 
536365 22752 SET 7 BABUSHKA NESTING BOXES NaN 
536365 21730 GLASS STAR FROSTED TLIGHT HOLDER 
536366 22633 HAND WARMER UNION JACK 
536366 22632 HAND WARMER RED POLKA DOT 


2 
3 
4 
5 
6 
7 
8 
9 


536367 84879 ASSORTED COLOUR BIRD ORNAMENT 
536367 22745 POPPY'S PLAYHOUSE BEDROOM 


a = 
25 


Nan 22748 POPPY'S PLAYHOUSE KITCHEN 


2 
Ñ 


NaN 22749 FELTCRAFT PRINCESS CHARLOTTE DOLL 


= 
D 


NaN 22310 IVORY KNITTED MUG COSY 
NaN 84969 BOX OF 6 ASSORTED COLOUR TEASPOONS 


= = 
a a 


NaN 22623 BOX OF VINTAGE JIGSAW BLOCKS 


= 
oa 


NaN 22622 BOX OF VINTAGE ALPHABET BLOCKS 


= 
3 


NaN HOME BUILDING BLOCK WORD 
NaN LOVE BUILDING BLOCK WORD 


Pac 
© œ 


NaN RECIPE BOX WITH METAL HEART 


图 4.31 


不 难 发 现 ， 外 部 连接 包含 了 全 部 元 素 Cd4 和 ds 中 列 的 并 集 ) 。 

任何 不 存在 的 数据 值 均 标记 为 NaN。 例 如 , ds 中 不 存在 标记 为 InvoiceNo 的 列 , 因 
而 此 类 数据 值 均 显示 为 NaN。 

下 面 讨论 列 上 的 连接 。 对 此 ， 可 在 函数 调用 中 引入 新 的 参数 “on=”。 下 列 代码 显示 
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了 StockCode 列 上 的 合并 操作 : 


pd.merge(d4, d5, on-'StockCode', how-'left') 
对 应 结果 如 图 4.32 所 示 。 


In [227]: pd.merge(d4, d5, on-'StockCode', how-'left') 


Out [227]: 
InvoiceNo StockCode Description x Description y Quantity 


536365 85123A WHITE HANGING HEART T-LIGHT HOLDER NaN 
536365 71053 WHITE METAL LANTERN 
536365 84406B CREAM CUPID HEARTS COAT HANGER 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. 
536365 22752 SET 7 BABUSHKA NESTING BOXES 
536365 21730 GLASS STAR FROSTED T-LIGHT HOLDER 
536366 22633 HAND WARMER UNION JACK 
536366 22632 HAND WARMER RED POLKA DOT 


0 
1 
2 
3 
4 
5 
6 
7 
8 
9 


536367 84879 ASSORTED COLOUR BIRD ORNAMENT 


E 
s 


536367 22745 POPPY'S PLAYHOUSE BEDROOM POPPY'S PLAYHOUSE BEDROOM 


图 4.32 


图 4.32 类 似 于 使 用 左 连接 合并 d4 和 ds 时 生成 的 表 。 但 是 ， 由 于 Description 为 d4 
和 ds 的 共有 列 ， 因 而 二 者 均 被 添加 进来 ， 并 通过 x 和 y 对 其 加 以 区 分 。 

正如 在 最 后 一 项 中 所 看 到 的 , 该 列 由 d4 和 ds 共享 ,因此 Description x 和 Description y 
彼此 相同 。 

注意 ， 仅 可 输入 两 个 DataFrame 共有 的 列 名 ， 因 而 可 使 用 StockCode 或 Description 
执行 合并 操作 。 

当 在 Description 列 上 进行 合并 时 ， 对 应 代码 如 下 所 示 : 


pd.merge(d4, d5, on-'Description', how-'left') 


对 应 结果 如 图 4.33 所 示 。 
中 次 强调 ， 通 过 加 入 _x M y 以 表示 d4 和 d5， 进 而 对 共享 列 了 予以 区 分 。 
实际 上 ， 可 传递 一 个 列 名 列表 ， 而 不 是 单一 的 列 名 ， 如 下 所 示 : 


pd.merge(d4, d5, on-['StockCode', 'Description'], how-'left') 


对 应 结果 如 图 4.34 所 示 。 
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pd.merge(d4, d5, on='Description', how='left') 


Description StockCode_y Quantity 
536365 85123A WHITE HANGING HEART T-LIGHT HOLDER NaN NaN 


536365 71053 WHITE METAL LANTERN NaN NaN 
536365 844068 CREAM CUPID HEARTS COAT HANGER NaN 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE NaN 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. NaN 
536365 22752 SET 7 BABUSHKA NESTING BOXES NaN 
536365 21730 GLASS STAR FROSTED TLIGHT HOLDER NaN 
536366 22633 HAND WARMER UNION JACK NaN 
536366 22632 HAND WARMER RED POLKA DOT NaN 


© eo っ の の o MN 


536367 84879 ASSORTED COLOUR BIRD ORNAMENT NaN 
536367 22745 POPPY'S PLAYHOUSE BEDROOM 22745 


= 
e 


图 4.33 


In [229]: pd.merge(d4, d5, on-['StockCode', 'Description'], how-'left') 


InvoiceNo StockCode Description Quantity 


536365 85123A WHITE HANGING HEART TLIGHT HOLDER NaN 
536365 71053 WHITE METAL LANTERN NaN 
536365 84406B CREAM CUPID HEARTS COAT HANGER NaN 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE NaN 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. NaN 
536365 22752 SET 7 BABUSHKA NESTING BOXES NaN 
536365 21730 GLASS STAR FROSTED T-LIGHT HOLDER 
536366 22633 HAND WARMER UNION JACK 
536366 22632 HAND WARMER RED POLKA DOT 


2 
3 
4 
5 
6 
7 
8 
9 


536367 84879 ASSORTED COLOUR BIRD ORNAMENT 


2 
[i 


536367 22745 POPPY'S PLAYHOUSE BEDROOM 


图 4.34 


然而 ， 在 当前 情况 下 ， 可 以 看 到 这 将 是 同一 个 表 ， 如 下 所 示 : 


pd.merge(d4, d5, how-'left') 
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在 这 种 特殊 情况 下 ， 所 传递 的 列表 包含 了 二 者 所 共享 的 列 名 。 如 果 共享 了 3 个 列 ， 
且 我 们 只 传递 了 两 个 列 ， 则 不 会 出 现 这 种 情况 。 
为 了 对 此 加 以 说 明 ， 考 查 下 列 代码 : 


d4 = pd.DataFrame (df, columns-['InvoiceNo', 'StockCode', 
'Description', 'UnitPrice']) [0:11] 

d5 = pd.DataFrame(df, columns-['StockCode', 'Description', 
"Quantity', 'UnitPrice']) [10:20] 


并 再 次 执行 下 列 代码 : 
pd.merge(d4, d5, on-['StockCode', 'Description'], how-'left') 


图 4.35 显示 了 当前 表 的 状态 。 


In [232]: | pd.merge(d4, d5, on-['StockCode', 'Description'], how-'left') 


Out [232]: 

InvoiceNo StockCode Description UnitPrice_x Quantity 
536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 255 NaN 
536365 71053 WHITE METAL LANTERN 3.39 NaN 

2 536365 84406B CREAM CUPID HEARTS COAT HANGER 275 

3 536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 3.39 

4 536365 84029E RED WOOLLY HOTTIE WHITE HEART. 3.39 

5 536365 22752 SET 7 BABUSHKA NESTING BOXES 7.65 

6 536365 21730 GLASS STAR FROSTED T-LIGHT HOLDER 425 

7 536366 22633 HAND WARMER UNION JACK 1.85 

8 536366 22632 HAND WARMER RED POLKA DOT 1.85 

9 536367 84879 ASSORTED COLOUR BIRD ORNAMENT 1.69 

10 536367 22745 POPPY'S PLAYHOUSE BEDROOM 2.10 

图 4.35 
除 此 之 外 ， 还 可 指定 希望 所 有 列 都 予以 显示 ， 甚 至 是 共享 类 。 


考查 下 列 代码 : 


pd.merge(d4, d5, left index = True, right index-True, how-'outer') 


可 以 指定 任意 连接 类 型 ， 且 仍然 会 显示 所 有 列 。 但 是 ， 当 前 示例 将 使 用 外 连接 ， 如 
图 4.36 所 示 。 
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In [237]: pd.merge(d4, dS, left index = True, right index-True, how-'cuter'] 


Out [237]: 
ImvolceNo  StockCode x Description x UnitPrice x StockCode_y 


WHITE HANGING HEART T-LIGHT 


536365 85123A HOLDER 


255 
536365 71053 WHITE METAL LANTERN 
536365 844068 CREAM CUPID HEARTS COAT HANGER 


KNITTED UNION FLAG HOT WATER 
BOTTLE 


536365 84029G 

536365 84029E RED WOOLLY HOTTIE WHITE HEART. 

536365 22752 SET 7 BABUSHKA NESTING BOXES 

536365 21730 GLASS STAR FROSTED TLIGHT HOLDER 

536366 22633 HAND WARMER UNION JACK 

536366 22632 HAND WARMER RED POLKA DOT 

536367 84879 ASSORTED COLOUR BIRD ORNAMENT 

536367 22745 POPPYS PLAYHOUSE BEDROOM POPPYS PLAYHOUSE BEDROOM 
NaN NaN NaN POPPYS PLAYHOUSE KITCHEN 


NaN NaN NaN FELTORAFT PRINCESS CHARLOTTE 
NaN NaN NaN IVORY KNITTED MUG COSY 


BOX OF 6 ASSORTED COLOUR 
TEASPOONS 


NaN NaN NaN 
NaN NaN Nan BOX OF VINTAGE JIGSAW BLOCKS 
NaN NaN Nan BOX OF VINTAGE ALPHABET BLOCKS 
NaN NaN Nan HOME BUILDING BLOCK WORD 
NaN NaN NaN LOVE BUILDING BLOCK WORD 


NaN NaN NaN RECIPE BOX WITH METAL HEART 


图 4.36 


接 下 来 讨论 join0 函 数 。 需 要 注意 的 是 ， 如 果 共 享 某 个 列 名 ， 则 不 可 连接 两 个 
DataFrame。 因 此 ， 下 列 代码 将 不 予 支 持 : 

d4 = pd.DataFrame (df, columns-['StockCode', 'Description', 

'UnitPrice']) [0:11] 

d5 = pd.DataFrame(df, columns-[ 'Description', 'Quantity', 

'InvoiceNo']) [10:20] 

d4.join(d5) 


考查 下 列 代码 : 

d4 = pd.DataFrame (df, columns-['StockCode', 'UnitPrice']) [0:11] 

d5 = pd.DataFrame(df, columns-[ 'Description', 'Ouantity'J) [10:20] 

d4.join(d5) 

对 应 表 如 图 4.37 所 示 。 

此 处 使 用 了 d4 表 ， 并 添加 了 列 以 及 d5 中 的 对 应 数据 。 由 于 ds 未 包含 描述 数据 ， 或 
者 索引 0 一 9 的 量 值 ， 因 而 全 部 显示 为 NaN。 由 于 d5 和 d 均 包 含 索引 10 的 数据 ， 则 该 
元 素 的 所 有 数据 都 显示 在 相应 的 列 中 。 
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In [242]: d4 = pd.DataFrame(df, column. StockCode 
d5 = 


d4.join(d5)| 


Out [242]: 


pd.DataFrame(df, columns-[ 'Description', 


StockCode UnitPrice Description Quantity 


85123A 255 
71053 3.39 
844068 275 
84029G 3.39 
84029E 3.39 
22752 7.65 
21730 425 
22633 185 
22632 185 
84879 1.69 


NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


NaN 


22745 2.10 POPPYS PLAYHOUSE BEDROOM 


图 4.37 
此 外 ， 也 可 采用 相反 方向 进行 连接 ， 如 下 所 示 


d4 = pd.DataFrame (df, columns-['StockCode', 
d5 
d5.join(d4) 


对 应 结果 如 图 4.38 所 示 。 


In [243]: d4 = pd.DataFrame(df, columns-['StockCode 
d5 = 
d5.join(d4) 


Out [243]: 


"UnitPrice']) [0:11] 
pd.DataFrame(df, columns=[ 'Description', 


", 'UnitPrice']) [0:11] 


pd.DataFrame(df, columns=[ 'Description', 'Quantity']) [10:20] 


NaN 
NaN 
NaN 


'UnitPrice']) [0:11] 
"Quantity']) [10:20] 


'Quantity']) [10:20] 


Description Quantity StockCode UnitPrice 


POPPY'S PLAYHOUSE BEDROOM 

POPPY'S PLAYHOUSE KITCHEN 

FELTCRAFT PRINCESS CHARLOTTE DOLL 
IVORY KNITTED MUG COSY 

BOX OF 6 ASSORTED COLOUR TEASPOONS 
BOX OF VINTAGE JIGSAW BLOCKS 

BOX OF VINTAGE ALPHABET BLOCKS 

HOME BUILDING BLOCK WORD 

LOVE BUILDING BLOCK WORD 

RECIPE BOX WITH METAL HEART 


图 4.38 


6 
6 
8 
6 
6 
3 
2 
3 
3 
4 


22745 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


NaN 


21 
NaN 
NaN 
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除了 d4 中 的 列 和 对 应 的 数据 被 添加 到 ds 表 中 ， 逻 辑 上 并 无 太 大 变化 。 
下面 利用 combine first0 组 合 数据 ， 考 查 下 列 代码 : 


d6 pd.DataFrame.copy (df) [0:5] 
d7 = pd.DataFrame.copy (df) [2:8] 


d6.loc[3, ['Quantity']] = 110 
d6.loc[4, ['Quantity']] = 110 


diloci3 ['Oúantity' I] = 210 

d7.loc[4, ['Quantity']] = 210 

pd.concat([d6, d7], keys-['d6', 'd7']) 

在 pd.DataFrame 之 后 添加 .copy 可 确保 生成 原 df 的 副本 ， 而 不 是 在 原始 df 上 进行 编 
辑 。 通 过 这 种 方式 , d6 将 索引 3 和 4 的 量 值 修改 为 110 将 不 会 对 d7 造成 影响 , 反之 亦 然 。 
需要 注意 的 是 ， 如 果 传 递 一 个 要 选择 的 列表 ， 那 么 ， 该 方式 将 不 会 起 到 任何 作用 。 因 此 ， 
下 列 代码 无 法 正常 工作 : 

pd.DataFrame (df, columns-['Quantity', 'UnitPrice']) 


运行 上 述 代 码 后 ， 对 应 表 如 图 4.39 所 示 。 


In [59]: | d6 


.DataFrame.copy (df) [0:5] 


= pd 
d7 = pd.DataFrame.copy (df) [2:8] 


-loc[3, ['Quantity']] = 110 
-loc[4, ['Quantity']] = 110] 


・1oc[3。 ['Quantity']] = 210 
sloc[4, ['Quantity']] = 210 
concat([dé, d7], keys-['dé', '47']) 


Out[59]: 
InvoiceNo  StockCode Description Quantity InvoiceDate UnitPrice CustomerlD Country 


536365 85123A WHITE HANGING HEART T-LIGHT HOLDER. 12/1/10 826 255 17850.0 United Kingdom 
536365 71053 WHITE METAL LANTERN 12/1/10 8:26 339 17850.0 United Kingdom 
536365 — 844068 CREAM CUPID HEARTS COAT HANGER 12/110 8:26 275 17850.0 United Kingdom 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 12/1/10 826 339 17850.0 United Kingdom 
536365  84029E RED WOOLLY HOTTIE WHITE HEART. 12/1/10 8:26 339 17850.0 United Kingdom 
536365 84406B CREAM CUPID HEARTS COAT HANGER 12/110 826 275 17850.0 United Kingdom 
536365  84029G KNITTED UNION FLAG HOT WATER BOTTLE 12/1/10 8:26 17850.0 United Kingdom 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. 12/1/10 8:26 178500 United Kingdom 
536365 22752 SET 7 BABUSHKA NESTING BOXES 12/1/10 8:26 17850.0 United Kingdom 
536365 21730 GLASS STAR FROSTED FLIGHT HOLDER 12/1/10 8:26 178500 United Kingdom 
536366 22633 HAND WARMER UNION JACK 12/1/10 8:28 17850.0 United Kingdom 


图 4.39 
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注意 , d6 和 d7 包含 了 共有 元 素 ， 即 索引 为 2 一 4 的 元素 。 
考查 下 列 代码 : 


d6.combine first (d7) 


对 应 结果 如 图 4.40 所 示 。 


Description Quantity InvoiceDate UnitPrice CustomerID Country 


536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6.0 12/1/10 8:26 255 17850.0 United Kingdom 
536365 71053 WHITE METAL LANTERN 6.0 12/1/10 8:26 3.39 17850.0 United Kingdom 


536365 84406B CREAM CUPID HEARTS COAT HANGER 8.0 12/1/10 8:26 275 17850.0 United Kingdom 


536365  84029G KNITTED UNION FLAG HOT WATER BOTTLE — 1100 12/1/10 8:26 3.39 17850.0 United Kingdom 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. 110.0 12/1/10 8:26 17850.0 United Kingdom 
536365 22752 SET 7 BABUSHKA NESTING BOXES 20 12/1/10 8:26 17850.0 United Kingdom 
536365 21730 GLASS STAR FROSTED T-LIGHT HOLDER 6.0 12/1/10 8:26 17850.0 United Kingdom 
536366 22633 HAND WARMER UNION JACK 6.0 12/1/10 8:28 17850.0 United Kingdom 


图 4.40 


这 样 做 的 结果 是 将 d7 数据 与 d6 数据 相 结合 ， 但 优先 考虑 d6。 我 们 在 d6 中 将 索引 3 
和 4 的 量 值 设置 为 110。 可 以 看 到 ，d6 的 数据 被 保存 在 两 个 数据 集 具 有 公共 索引 的 地 方 。 
考查 下 列 代码 : 


d7.combine first (d6) 
对 应 结果 如 图 4.41 所 示 。 
In [63]: d7.combine first (d6) 


InvoiceNo StockCode Description InvoiceDate UnitPrice CustomeriD Country 


536365 85123A WHITE HANGING HEART T-LIGHT HOLDER: 12/1/10 8:26 255 178500 United Kingdom 
536365 71053 WHITE METAL LANTERN 12/1/10 8:26 3.39 17850.0 United Kingdom 
536365 844068 CREAM CUPID HEARTS COAT HANGER 12/1/10 8:26 275 17850.0 United Kingdom 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 12/1/10 8:26 3.39 17850.0 United Kingdom 
536365  84029E RED WOOLLY HOTTIE WHITE HEART. 12/1/10 8:26 3.39 17850.0 United Kingdom 


536365 22752 SET 7 BABUSHKA NESTING BOXES 12/1/10 8:26 7.65 17850.0 United Kingdom 


536365 21730 GLASS STAR FROSTED TLIGHT HOLDER. 12/1/10 8:26 425 178500 United Kingdom 
536366 22633 HAND WARMER UNION JACK 121/10 8:28 1.85 17850.0 United Kingdom 


图 4.41 


图 4.41 中 可 以 看 到 ， 两 个 元 素 具 有 共同 的 索引 (在 索引 3 和 4 处 ) ，d7 的 数据 被 保存 。 
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通过 value counts0， 还 可 在 选择 类 别 中 获得 每 项 数值 的 出 现 次 数 。 考 查 下列 代 码 : 


pd.value counts (df['Country']) 


对 应 结果 如 图 4.42 所 示 。 


In [8]: pd.value_counts(df['Country']) 


United Kingdom 61186 
Germany 982 
France 967 
EIRE 504 
Spain 355 
Portugal 212 
Netherlands 186 
Switzerland 175 
Norway 147 
Australia 142 
Belgium 142 
Italy 112 
Cyprus 99 
Japan 

Sweden 

Lithuania 

Poland 

Iceland 

Denmark 

Channel Islands 

Finland 

Israel 

Austria 

Bahrain 

Name: Country, dtype: int64 


图 4.42 


在 合并 过 程 中 需要 考虑 的 一 件 事 是 : 可 能 会 遇 到 重复 的 数据 值 。 对 此 ， 可 使 
用 .drop_duplicates() 。 


考查 下 列 代码 : 

dl = pd.DataFrame (df, columns = ['InvoiceNo', 'StockCode', 
'Description']) [0:100] 

d2 = pd.DataFrame (df, columns = ['Description', 'InvoiceDate', 


'Quantity']) [0:100] 


pd.merge (d1, d2) 


对 应 结果 如 图 4.43 所 示 。 
查看 如 图 4.44 所 示 的 下 方 内 容 。 
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In [48]: dl = pd.DataFrame (dE。 columns = ['InvoiceNo', 'StockCode', 'Description']) [0:100] 
d2 = pd.DataFrame(df, columns = ['Description', 'InvoiceDate', 'Quantity']) [0:100] 


pd.merge(di, d2) 


Out [48]: 
InvoiceNo StockCode Description InvoiceDate Quantity 


536365 85123A WHITE HANGING HEART TLIGHT HOLDER 12/1/10 8:26 
536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 12/1/10 9:02 
536365 85123A WHITE HANGING HEART TLIGHT HOLDER 12/1/10 9:32 
536373 85123A WHITE HANGING HEART T-LIGHT HOLDER 12/1/10 8:26 
536373 85123A WHITE HANGING HEART TLIGHT HOLDER 12/1/10 9:02 
536373 85123A WHITE HANGING HEART T-LIGHT HOLDER 12/1/10 9:32 
536375 85123A WHITE HANGING HEART T-LIGHT HOLDER 12/1/10 8:26 
536375 85123A WHITE HANGING HEART TLIGHT HOLDER 12/1/10 9.02 
536375 85123A WHITE HANGING HEART T-LIGHT HOLDER 121/10 9:32 
536365 71053 WHITE METAL LANTERN 12/1/10 8:26 
536365 71053 WHITE METAL LANTERN 12/1/10 9:02 
536365 71053 WHITE METAL LANTERN 12/1/0932 
536373 71053 WHITE METAL LANTERN 12/1/10 8:26 
536373 71053 WHITE METAL LANTERN 12/1/10 9:02 
536373 71053 WHITE METAL LANTERN 12/1710 9:32 
536375 71053 WHITE METAL LANTERN 12/1/10 8:26 
536375 71053 WHITE METAL LANTERN 12/170 9:02 
536375 71053 WHITE METAL LANTERN 12/1/10 9:32 
536365 844068 CREAM CUPID HEARTS COAT HANGER 12/1/10 8:26 
536365 844068 CREAM CUPID HEARTS COAT HANGER — 12/1/10 9:02 
536365 844068 CREAM CUPID HEARTS COAT HANGER 12/1/10 9:32 
536373 844068 CREAM CUPID HEARTS COAT HANGER _ 12/1/10 8:26 


536378 85099C JUMBO BAG BAROQUE BLACK WHITE 12/1/10 9:37 
536378 21033 JUMBO BAG CHARLIE AND LOLA TOYS 12/1/10 9:37 
536378 20723 STRAWBERRY CHARLOTTE BAG 12/1/10 9:37 
536378 849978 — RED 3PIECE RETROSPOT CUTLERY SET 12/1/10 9:37 
536378 84997C BLUE 3PIECE POLKADOT CUTLERY SET 12/1/10 9:37 
536378 21094 SET/6 RED SPOTTY PAPER PLATES 12/1/10 9:37 
536378 20725 LUNCH BAG RED RETROSPOT 12/1/10 9:37 
536378 21559 STRAWBERRY LUNCH BOX WITH CUTLERY 12/1/10 9:37 
536378 22352 LUNCH BOX WITH CUTLERY RETROSPOT 12/1/10 9:37 
168 536378 21212 PACK OF 72 RETROSPOT CAKE CASES 12/1/10 9:37 
169 536378 21975 PACK OF 60 DINOSAUR CAKE CASES 12/1/10 9:37 
170 — 536378 21977 PACK OF 60 PINK PAISLEY CAKE CASES 12/1/10 9:37 
171 536378 84991 60 TEATIME FAIRY CAKE CASES 12/1/10 9:37 


172 rows x 5 columns 


图 4.44 
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不 难 发 现 ， 其 中 存在 多 项 的 重复 数据 。 对 此 ， 可 采用 drop_duplicates0 移 除 这 些 数据 。 
另外 ， 还 可 进一步 指定 可 用 的 列 数据 ， 进 而 确定 哪些 数据 项 可 被 移 除 。 例 如 ， 可 利用 
StockCode 移 除 全 部 复制 项 ， 此 处 假设 每 项 均 包含 唯一 的 股票 代码 。 除 此 之 外 ， 还 可 针对 
每 项 设置 唯一 的 描述 ， 并 以 这 种 方式 删除 对 应 的 数据 项 。 考 查 下 列 代码 : 


di = pd.DataFrame(df, columns = ['InvoiceNo', 'StockCode', 
'Description']) [0:100] 
d2 = pd.DataFrame(df, columns = ['Description', 'InvoiceDate', 


'Quantity']) [0:100] 


pd .merge (d1, d2).drop duplicates(['StockCode']) 
对 应 结果 如 图 4.45 所 示 。 


In [62]: = pd.DataFrame(df, columns = ['InvoiceNo', 'StockCode', 'Description']) [0:100] 
= pd.DataFrame(df, columns = ['Description', 'InvoiceDate', 'Quantity']) [0:100] 


pd.merge(dl, d2).drop duplicates(['Stockcode']) 


out [62]: 
InvoiceNo StockCode Description InvoiceDate Quantity 


536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 12/1/10 8:26 
536365 71053 WHITE METAL LANTERN 12/1/10 8:26 
536365 84406B CREAM CUPID HEARTS COAT HANGER 12/1/10 8:26 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 12/1/10 8:26 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. 12/1/10 8:26 
536365 22752 SET 7 BABUSHKA NESTING BOXES 12/1/10 8:26 
536365 21730 GLASS STAR FROSTED T-LIGHT HOLDER 12/1/10 8:26 
536366 22633 HAND WARMER UNION JACK = 12/1/10 8:28 
536366 22632 HAND WARMER RED POLKA DOT 12/1/10 8:28 
536367 84879 ASSORTED COLOUR BIRD ORNAMENT 12/1/10 8:34 
536367 22745 POPPY'S PLAYHOUSE BEDROOM 12/1/10 8:34 
536367 22748 POPPYS PLAYHOUSE KITCHEN 12/1/10 8:34 
536367 22749 FELTCRAFT PRINCESS CHARLOTTE DOLL 12/1/10 8:34 
536367 22310 IVORY KNITTED MUG COSY 12/1/10 8:34 
536367 84969 BOXOF 6 ASSORTED COLOUR TEASPOONS 12/1/10 8:34 
536367 22623 BOX OF VINTAGE JIGSAW BLOCKS 12/1/10 8:34 
536367 22622 BOXOF VINTAGE ALPHABET BLOCKS 12/1/10 8:34 


图 4.45 
查看 如 图 4.46 所 示 的 下方 内 容 。 


从 图 4.46 中 可 以 看 到 ， 多 个 复制 项 已 被 移 除 。 此 外 ， 还 可 传 入 Description 和 
StockCode， 或 者 Description， 这 将 生成 相同 的 结果 。 
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536378 
536378 
536378 


536378 


536378 
536378 
171 536378 


20725 


LUNCH BAG RED RETROSPOT 12/1/10 9:37 


21559 STRAWBERRY LUNCH BOX WITH CUTLERY 12/1/10 9:37 


22352 
21212 
21975 
21977 
84991 


73 rows x 5 columns 


LUNCH BOX WITH CUTLERY RETROSPOT 12/1/10 9:37 


PACK OF 72 RETROSPOT CAKE CASES 12/1/10 9:37 


PACKOF 60 DINOSAUR CAKE CASES 12/1/10 9:37 


PACK OF 60 PINK PAISLEY CAKE CASES 12/1/10 9:37 


60 TEATIME FAIRY CAKE CASES 12/1/10 9:37 


图 4.46 


需要 注意 的 是 ， 当 前 ， 索 引 遍布 于 各 处 。 对 此 ， 可 使 用 reset index0 解 决 此 类 问题 。 


考查 下 列 代码 : 


dl = pd.DataFrame (df, 
'Description']) [0: 
d2 = pd.DataFrame (df, 


100] 


'Quantity']) [0:100] 


columns 


['InvoiceNo', 'StockCode', 


columns = ['Description', 'InvoiceDate', 


d3 = pd.merge(d1, d2).drop duplicates(['StockCode']) 


d3.reset index() 


对 应 结果 如 图 4.47 所 示 。 


In [66]: d3.reset index() 


Out[66]: 


index InvoiceNo StockCode 


Description InvoiceDate Quantity 


536365 
536365 
536365 
536365 
536365 
536365 
536365 
536366 
536366 


536367 


536367 
536367 
536367 
536367 
536367 


85123A 
71053 
844068 
84029G 
84029E 
22752 
21730 
22633 
22632 
84879 
22745 
22748 
22749 
22310 
84969 


WHITE HANGING HEART T-LIGHT HOLDER 12/1/10 8:26 
WHITE METAL LANTERN 12/1/10 8:26 

CREAM CUPID HEARTS COAT HANGER 12/1/10 8:26. 
KNITTED UNION FLAG HOT WATER BOTTLE 12/1/10 8:26 
RED WOOLLY HOTTIE WHITE HEART. 12/1/10 8:26 

SET7 BABUSHKA NESTING BOXES 12/1/10 8:26 

GLASS STAR FROSTED TLIGHT HOLDER 12/1/10 8:26 
HAND WARMER UNION JACK 12/1/10 8:28 

HAND WARMER RED POLKA DOT 12/1/10 8:28 
ASSORTED COLOUR BIRD ORNAMENT 12/1/10 8:34 
POPPY'S PLAYHOUSE BEDROOM 12/1/10 8:34 

POPPY'S PLAYHOUSE KITCHEN 12/1/10 8:34 
FELTCRAFT PRINCESS CHARLOTTE DOLL 12/1/10 8:34 
IVORY KNITTED MUG COSY 12/1/10 8:34 

BOX OF 6 ASSORTED COLOUR TEASPOONS 12/1/10 8:34 


图 4.47 
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最 终结 果 与 期 望 结果 保 持 一 致 。 虽 然 这 里 重 置 了 索引 ， 但 也 将 旧 索 引 作为 列 添加 了 
进来 。 对 此 ， 存 在 一 种 简单 的 修复 方法 ， 即 引入 新 的 参数 。 考 查 下 列 代码 : 


d3.reset index (drop=True) 


对 应 结果 如 图 4.48 所 示 。 


In (67): d3.reset index(drop=True) 


Out[67]: 
InvoiceNo StockCode Description InvoiceDate Quantity 


536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 12/1/10 8:26 
536365 71053 WHITE METAL LANTERN = 12/1/10 8:26 
536365 844068 CREAM CUPID HEARTS COAT HANGER 12/1/10 8:26 
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 12/1/10 8:26 
536365 84029E RED WOOLLY HOTTIE WHITE HEART. 12/1/10 8:26 
536365 22752 SET7 BABUSHKA NESTING BOXES 12/1/10 8:26 
536365 21730 GLASS STAR FROSTED TLIGHT HOLDER 12/1/10 8:26 
536366 22633 HAND WARMER UNION JACK 12/1/10 8:28 
536366 22632 HAND WARMER RED POLKADOT 12/1/10 8:28 
536367 84879 ASSORTED COLOUR BIRD ORNAMENT 12/1/10 8:34 
536367 22745 POPPYSPLAYHOUSE BEDROOM 12/1/10 8:34 
536367 22748 POPPYS PLAYHOUSE KITCHEN 12/1/10 8:34 
536367 FELTCRAFT PRINCESS CHARLOTTE DOLL 12/1/10 8:34 
536367 IVORY KNITTED MUG COSY 12/1/10 8:34 
536367 BOXOF 6 ASSORTED COLOUR TEASPOONS 12/1/10 8:34 
536367 BOX OF VINTAGE JIGSAW BLOCKS 12/1/10 8:34 
536367 BOX OF VINTAGE ALPHABET BLOCKS 12/1/10 8:34 
536367 HOME BUILDING BLOCK WORD 12/1/10 8:34 
536367 LOVE BUILDING BLOCK WORD 12/1/10 8:34 


图 4.48 


可 以 看 出 ， 情 况 已 有 所 改善 。 默 认 状 态 下 ，drop=False。 因 此 ， 如 果 不 希 望 将 旧 索 引 
作为 新 列 添加 至 数据 中 ， 则 可 设置 为 drop=True。 

之 前 曾 讨论 了 .plot0 函 数 ， 该 函数 有 助 于 实现 DataFrame 的 可 视 化 效果 ， 特 别 是 
DataFrame 较 大 时 。 

下 列 代码 显示 了 单列 示例 : 


d8 = pd.DataFrame (df, columns-['Quantity']) [0:100] 
d8.plot() 


这 里 仅 选择 了 前 100 个 元 素 ， 以 实现 更 好 的 图 像 显示 效果 以 及 示例 解释 效果 ， 如 图 4.49 
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所 示 。 


In [76]: d8 = pd.DataFrame (df, columns-['Quantity']) [0:100] 
d8.plot ()| 


Out [76]: <matplotlib.axes. subplots.AxesSubplot at Ox1b39e3aeb00> 


ーー Quantity 


下 列 代码 表示 为 多 列 显 示 效 果 : 


d8 = pd.DataFrame(df, columns=['Quantity', 'UnitPrice']) [0:100] 
d8.plot() 


对 应 结果 如 图 4.50 所 示 。 


In (82): d8 = pd.DataFrame(df, columns-['Quantity', 'UnitPrice']) [0:100] 
d8.plot() 


Out[82]: «matplotlib.axes. subplots.AxesSubplot at Ox1b39f21ef98» 


ーー Quantity 
ーー UnitPnice 
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需要 注意 的 是 , 上 述 代码 并 不 会 显示 定性 数据 列 , 例如 Description, 且 仅 显示 Quantity 
和 UnitPrice 这 一 类 数据 。 


43 本 章 小 结 


本 章 讨 论 了 Python 语言 ， 以 及 如 何 使 用 该 语言 并 借助 于 Jupyter Notebook 进行 数据 
分 析 。 除 此 之 外 ， 本 章 还 考查 了 基于 Python 语言 的 多 种 不 同 操作 方案 。 

第 5 章 将 介绍 另 一 种 较为 流行 的 分 析 语 言 ， 即 R 语言 ， 以 及 如 何 利用 R 语言 执行 数 
据 分 析 。 


第 5 章 R-Hadoop 统计 数据 计算 


本 章 讨论 RR 语言 及 其 应 用 方式 , 进而 通过 Hadoop 针对 大 数据 执行 统计 计算 。 除 此 之 
外 ， 我 们 还 将 考查 一 些 蔡 代 方 案 ， 例 如 工作 站 上 的 开源 R 系统 、 并 行 化 的 商业 级 产品 ， 
例如 Revolution R Enterprise; 而 在 这 两 者 间 还 存在 许多 其 他 选择 方案 ， 其 中 还 会 涉及 数 
据 的 可 伸缩 性 、 性 能 、 功 能 和 易 用 性 等 问题 。 因 此 ， 最 终 的 选择 结果 取决 于 数据 的 大 小 、 
预算 、 技 能 水 平 以 及 管理 行为 。 

本 章 将 探讨 开源 R 的 一 些 蔡 代 方法 及 其 优点 。 另 外 ， 还 将 结合 开源 和 商业 技术 ， 以 
实现 更 大 规模 、 可 靠 以 及 易于 开发 的 备 选 方案 。 

本 章 主要 涉及 以 下 主题 : 

O RAM Hadoop 间 的 集成 。 

O R 语言 与 Hadoop 间 的 整合 方法 。 

Q “利用 R 语言 进行 数据 分 析 。 


5.1 概 述 


对 于 Hadoop 新 手 来 说 ,本 章 的 主要 目的 是 帮助 R 用 户 理解 并 选择 相应 的 评估 解决 方 
案 。 与 大 多 数 开 源 项 目 一 样 ， 首 先 要 考虑 的 一 般 是 资金 问题 。 好 消息 是 ， 其 中 存在 多 种 
免费 的 蔡 代 方案 同时， 开源 项 目 中 提供 了 许多 附加 功能 。 

当 利 用 开源 栈 实现 R 与 Hadoop 间 的 集成 时 ， 通 常 包 含 以 下 4 种 可 选 方案 : 

QO 在 工作 站 上 安装 RR， 并 连接 Hadoop 中 的 数据 。 

O 在 共享 服务 器 上 安装 RR， 并 连接 至 Hadoop 上 。 

口 使 用 Revolution R Open。 

O 利用 RMR2 在 MapReduce 中 执行 R。 

下 面 逐一 讨论 每 种 可 选 方案 。 


5.1.1 在 工作 站 上 安装 R 并 连接 Hadoop 中 的 数据 


该 方案 最 大 的 优势 在 于 简单 性 和 成 本 一 一 该 方案 完全 免费 。 利 用 开源 组 织 发 布 的 
Revolution, 包括 rhdfs 和 rhbase, R 用 户 可 以 直接 从 Hadoop 中 的 hdfs 文件 系统 和 hbase 
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数据 库 子 系统 中 摄取 数据 。 这 两 个 连接 器 都 是 由 Revolution 创建 和 维护 的 ， 同 时 也 是 
RHadoop 包 中 的 一 部 分 内 容 ， 并 可 视 作 一 类 首选 方案 。 

除 此 之 外 ， 还 存在 一 些 附 加 选项 。 例 如 ，RHive WEIMA R 中 执行 Hive SQL (RY 
于 SQL 查询 语言 ) ， 并 提供 了 Hive 元 数据 检索 功能 ， 例 如 数据 库 名 、 表 名 、 列 名 等 。 特 
别 值得 一 提 的 是 ， 在 mive 包 中 ， 数 据 操作 将 下 推 至 Hadoop 中 ， 从 而 避免 了 数据 移动 和 
并 行 操作 ， 从 而 大 大 提高 了 速度 ， 这 也 可 视 为 rhive 包 的 一 个 优点 。 类 似 的 下 推 操作 还 可 
通过 hbase 予以 实现 。 尽 管 如 此 ， 操 作 环境 以 及 复杂 的 分 析 问 题 往往 会 反映 出 功能 方面 
的 欠缺 。 

除了 有 限 的 下 推 功能 之 外 ，R 最 擅长 处 理 从 hdfs、hbase 或 hive 中 采样 的 少量 数据 ; 
通过 这 种 方式 ，R 用 户 可 以 快速 使 用 Hadoop。 


5.1.2 ”在 共享 服务 器 上 安装 R 并 连接 至 Hadoop 


考虑 到 内 存 的 局 限 性 (例如 在 笔记 本 电脑 上 执行 R 语言 任务 ) ， 共 享 服务 器 是 一 种 
很 自然 的 解决 方案 。 借 助 于 今天 的 技术 ， 投 入 少量 资金 即 可 在 用 户 间 实 现 服 务 器 共享 。 
在 Windows BK Linux 环境 下 (配置 了 256 或 512MB 的 内 存 空间 ) , R 可 以 用 于 分 析 多 达 
数 百 GB 的 文件 ， 尽 管 速度 上 可 能 会 存在 欠缺 。 

KAFERE 1 种 方案 ,共享 服务 器 上 的 R 也 可 采用 rhbase 和 rhive 包 提供 的 下 推 技 
术 ， 实 现 并 行 机 制 并 避免 对 数据 进行 移动 。 然 而 ， 类 似 于 工作 站 ，rhive 和 rhbase 下 推 技 
术 仍 存在 一 定 的 局 限 性 。 

大 量 的 RAM 可 避免 内 存 耗 尽 问题 , 且 对 计算 性 能 不 会 产生 负面 影响 (可 能 会 需要 一 
些 技术 上 的 支持 ) 。 基 于 此 ， 共 享 服务 器 可 看 作 是 工作 站 R 系统 的 一 个 很 好 的 补充 ， 但 
并 非 是 一 类 替代 方案 。 


5.1.3 利用 Revolution R Open 


利用 Revolution R Open (RRO) 替 代 CARN 还 可 以 进一步 提升 性 能 。 类 似 于 R, RRO 
采用 了 编写 且 完全 开源 ， 并 可 供用 户 免 费 下 载 。RRO 通过 Intel MATH 核心 库 改善 了 数 
学 计算 过 程 , 同时 100% 兼 容 于 CRAN 中 的 算法 和 其 他 存储 库 , 例如 BioConductor。 另外 ， 
R 脚本 不 需要 做 任何 修改 , 而 且 MKL 库 针 对 脚本 提供 了 不 同等 级 的 加 速 能 力 ， 其 中 使 用 
了 大 量 的 数学 和 线性 代数 原 语 (primitives) 。 如 果 在 该 语言 中 执行 数学 运算 , 借助 于 RPO, 
计算 的 平均 性 能 能 够 成 倍增 长 。 同 样 ，RRO 也 可 使 用 rhdfs 这 一 类 连接 器 ， 并 通过 rhbase 
和 rhive 执行 Hadoop 的 连接 、 下 推 操作 。 
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5.1.4 利用 RMR2 在 MapReduce 内 执行 R 


一 旦 发 现 问 题 集 过 大 , 或 者 用 户 的 耐心 在 工作 站 或 服务 器 上 一 点 点 地 被 消耗 ，rhbase 
和 rhive 下 推 操 作 的 限制 正在 阻碍 事态 的 进展 ， 则 可 考虑 在 Hadoop 中 运行 R。 

开源 RHadoop 項目 包含 thdfs、rhbase、plyrmr， 以 及 名 为 rmr2 的 数据 包 ， 以 使 1 用 
户 可 通过 R 函数 构建 Hadoop MapReduce 操作 。 当 采用 mapper 时 ，R 函数 可 应 用 于 hdfs 
文件 、hbase 表 以 及 其 他 数据 集 构成 的 所 有 数据 块 。 对 应 结果 将 发 送 至 一 个 reducer 和 及 
函数 中 ， 用 以 执行 聚合 或 分 析 操 作 。 所 有 工作 都 是 在 Hadoop 中 被 引导 的 ， 但 确实 在 R 
中 被 构建 的 。 可 以 确定 的 是 ， 针 对 每 个 hdfs 文件 片段 使 用 R 函数 是 一 种 较 好 的 加 速 计算 
方式 。 但 在 大 多 数 情况 下 ， 和 避免 移动 数据 才 是 真正 提高 性 能 的 因素 。 对 此 ，rmr2 针对 
Hadoop 节点 上 的 数据 运用 了 R 函数 ， 而 不 是 将 数据 移 至 R 所 处 的 位 置 处 。 

虽然 mr2 向 数据 科学 家 或 统计 人 员 提 供 了 强大 的 功能 ， 但 用 户 的 想法 或 许 会 很 快 产 
生变 化 一 一 针对 大 型 数据 集 ， 在 R 中 针对 算法 执行 计算 过 程 。 当 通过 这 一 方式 使 用 rmr2 
时 ， 对 于 R 程序 员 来 说 ， 这 将 使 得 开发 过 程 趋 于 复杂 化 ， 其 原因 在 于 ， 程 序 员 需要 编写 
算法 的 全 部 逻辑 ， 或 者 适应 现 有 的 CRAN 算法 。 随 后 ， 程 序 员 还 需 验 证 算法 的 准确 性 ， 
进而 体现 期 望 的 数学 结果 ， 并 针对 少量 场景 编写 代码 ， 例 如 所 丢失 的 数据 。 

rmr2 需要 亲自 编写 代码 对 并 行 机 制 进行 管理 。 对 于 数据 转换 操作 、 聚 合 等 内 容 来 说 ， 
该 过 程 并 不 复杂 ; 但 如 果 打算 在 大 型 数据 集 上 训练 预测 模型 或 构建 分 类 器 ， 那 么 ， 这 一 
过 程 可 能 会 相当 枯燥 。 与 其 他 方案 相 比 ，rmr2 在 这 一 方面 体现 得 尤为 明显 ， 但 该 方案 却 
是 真实 可 行 的 。 大 多 数 R 程序 员 会 发 现 ， 与 基于 Java 的 Hadoop 的 mapper 和 reducer 相 
比 , rmr2 则 要 容易 得 多 。 尽 管 如 此 ，rmr2 仍 具 备 以 下 特征 : 
完全 开源 。 
有 助 于 并 行 计 算 进 而 处 理 大 型 数据 集 。 
可 避免 数据 移动 。 
应 用 广泛 。 
完全 免费 。 

rmr2 并 非 是 这 一 领域 内 的 唯一 选择 , rhive 包 也 可 提供 类 似 的 功能 。 读 者 可 访问 https:/ 
www.rhipe.com/downloadconfirmation/ 了 解 详细 信息 ， 并 访问 GitHub 进行 下 载 。 

针对 基于 Hadoop 的 R 系统 ， 开 源 方案 的 范围 正在 不 断 扩 大 。 例 如 ，Apache Apark 
社区 通过 SparkR 改进 了 及 集成 方案 .SparkR 提供 了 在 及 中 访问 Spark 的 能 力 , 这 与 Hadoop 
的 MapReduce 十 分 类 似 。 

可 以 预见 ，SparkR 团队 还 会 加 入 对 Spark MLiib 机 器 学 习 算法 的 支持 ， 并 可 在 及 系 
统 中 直接 予以 执行 ， 但 具体 发 布 日 期 尚 不 明确 。 


ロロ ロロ ロ 
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对 于 平台 供应 商 来 说 ，R 语言 已 经 变 得 越发 重要 。 一 些 合 作 伙 伴 〈 例 如 Cloudera、 
Hortonworks、MapR) 和 数据 库 供应 商 已 经 敏锐 地 意识 到 ，R 语言 在 数据 科学 社区 已 呈 迅 速 
增长 之 势 ; 对 于 构建 于 Hadoop 之 上 的 各 类 存储 库 , R 已 成 为 获取 商业 价值 的 一 种 重要 的 手段 。 

在 接 下 来 的 内 容 中 ， 我 们 将 对 开源 方案 进行 扩展 ， 例 如 基于 Hadoop 的 Revolution R 
Enterprise， 进 而 构建 简洁 、 高 性 能 、 可 移植 、 可 伸缩 的 替代 方案 。 

R 系统 是 一 款 令 人 称奇 的 数据 科学 编程 工具 ， 可 在 模型 上 运行 统计 数据 分 析 ， 并 可 
将 分 析 结 果 转 换 为 彩色 图 形 。 毫 无 疑问 ， 对 于 统计 人 员 、 数 据 科 学 家 、 数 据 分 析 师 和 数 
据 架 构 师 来 说 ，R 是 一 个 首选 编程 工具 。 

在 操作 过 程 中 ， 全 部 对 象 均 会 被 加 载 至 单机 设备 的 主 内 存 中 ， 这 也 可 视 为 R 编程 语 
言 的 一 个 缺点 。 以 拍 字 节 (petabyte) 计算 的 大 型 数据 集 无 法 被 载 入 RAM 内 存 中 , 対 此 , 
与 R 集成 的 Hadoop 是 一 种 较为 理想 的 方案 。 为 了 适应 R 编程 语言 在 内 存 、 单 机 方面 的 
局 限 性 ， 数 据 科 学 家 不 得 不 将 他 们 的 数据 分 析 过 程 限制 在 大 数据 集 的 数据 样本 上 。R 编 
程 语言 的 这 种 局 限 性 是 处 理 大 数据 时 的 一 大 障碍 。 鉴 于 R 语言 的 可 伸缩 性 不 强 ， 核 心 R 
引擎 只 能 处 理 有 限 数量 的 数据 。 

相反 ， 分 布 式 处 理 框架 〈 例 如 Hadoop) 对 于 大 型 数据 集 ( 拍 字 节 级 别 ) 上 的 复杂 操 
作 和 任务 具有 一 定 的 可 伸缩 性 ， 但 却 缺乏 强大 的 统计 分 析 能 力 。Hadoop 作为 一 种 流行 的 
大 数据 处 理 框 架 ， 将 其 与 R 语言 集成 则 是 下 一 个 逻辑 操作 步骤 。 在 Hadoop 上 应 用 及 语 
言 提 供 了 一 种 高 度 可 伸缩 性 的 数据 分 析 平 台 ， 并 根据 数据 集 的 大 小 予以 实现 。 将 Hadoop 
5 R 集成 可 以 让 数据 科学 家 在 大 型 数据 集中 以 并 行 方式 运行 R， 因 为 在 R 语言 中 ， 没 有 
一 个 数据 科学 库 可 以 在 大 于 其 内 存 的 数据 集中 运行 。 在 商业 硬件 集群 〈 用 于 垂直 扩展 ) 
提供 的 成 本 -价值 回报 方面 ， 基 于 及 语言 和 Hadoop 的 大 数据 分 析 具 有 一 定 的 竞争 力 。 


52 及 语言 和 Hadoop 间 的 集成 方法 


与 Hadoop 协同 工作 的 数据 分 析 师 或 数据 科学 家 需要 使 用 到 R 数 据 包 或 R 脚本 ， 进 
而 用 于 数据 处 理 。 当 结合 Hadoop 使 用 此 类 R 脚本 或 R 数据 包 时 ， 需 要 利用 Java 编程 语 
言 (或 实现 了 Hadoop MapReduce 的 其 他 编程 语言 ) 重 写 这 些 R 脚本 。 这 将 是 一 个 较为 
繁重 的 过 程 ， 可 能 会 导致 错误 的 出 现 。 当 利用 R 编程 语言 集成 Hadoop 时 ， 需 要 使 用 到 基 
于 R 语言 编写 的 软件 ， 且 数据 存储 于 Hadoop 分 布 式 存 储 中 。 当 采用 R 语言 执行 大 型 计 
算 时 ， 存 在 多 种 解决 方案 ， 但 所 有 方案 均 要 求 数据 在 分 配 至 计算 节点 之 前 载 入 内 存 中 。 
对 于 大 型 数据 集 来 说 ,这 并 非 是 一 种 理想 的 方法 。 下 列 内 容 列 出 了 常用 的 Hadoop-R 集成 
方法 ， 进 而 针对 大 型 数据 集 发 挥 R 语言 分 析 的 最 佳 功效 。 
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5.2.1 RHadoop 一 一 在 工作 站 上 安装 R 并 将 数据 连接 至 Hadoop 中 


对 于 R 编程 语言 与 Hadoop 间 的 集成 ， 较 为 常见 的 开源 分 析 方案 是 RHadoop， 并 可 
从 HBase 子 系统 和 HDFS 文件 系统 中 直接 获取 数据 。 考虑 到 简洁 性 和 成 本 优势 , RHadoop 
可 视 作 是 一 种 首选 方案 。RHadoop 是 一 个 由 5 个 不 同 数据 包 构 成 的 集合 ， 可 使 Hadoop 
用 户 利用 R 编程 语言 管理 和 分 析 数 据 。RHadoop 数据 包 兼容 于 开源 Hadoop， 以 及 常见 的 
Hadoop 版 本 ， 例 如 Cloudera、Hortonworks 和 MapR, 如 下 所 示 。 
口 rhbase: rhbase 包 使 用 Thrift 服务 器 为 R 中 的 HBase 提供 数据 库 管理 功能 ,rhbase 
包 需 要 安装 在 运行 R 客户 端的 节点 上 。 当 采用 rhbase 时 ， 数 据 工 程 师 和 数据 科 
学 家 可 从 R 中 读 取 、 写 入 和 修改 HBase 表 中 的 数 据 。 
O rhdfs: rhdfs 向 R 程序 员 提供 了 与 Hadoop 分 布 式 文件 系统 间 的 连接 能 力 ， 进 而 
可 读 取 、 写 入 和 修改 存储 于 Hadoop HDFS 中 的 数据 。 
口 plyrmr: plyrmr 支持 由 Hadoop 管理 的 大 型 数据 集 上 的 数据 操控 .具体 来 说 ,plyrmr 
(针对 MapReduce 的 plyr) 针对 reshape2 和 plry 这 一 类 常见 的 数据 包 提 供 了 相 
应 的 操作 。plyrmr 依赖 于 Hadoop MapReduce 执行 相关 操作 ， 但 对 大 多 数 
MapReduce 细节 内 容 进行 了 抽象 。 
O ravro: ravro 包 可 使 用 户 读 取 和 写 入 本 地 和 HDFS 文件 系统 中 的 Avro 文件 。 
口 rmr2 (在 Hadoop MapReduce 4447 RO : 当 使 用 rmr2 包 时 ，R 程序 员 可 在 存 
储 于 Hadoop 集群 上 的 数据 执行 统计 分 析 。 对 于 rmr2 来 说 , R 与 Hadoop 间 的 集 
成 可 能 稍 显 复杂 , 但 是 , 许多 R 程序 员 发 现 , 与 使 用 基于 Java 的 Hadoop mapper 
和 reducer 相 比 ， 采 用 rmr2 则 更 加 简单 。rmr2 的 使 用 过 程 可 能 稍 显 枯 燥 ， 但 却 
避免 了 数据 的 移动 ， 并 有 助 于 执行 并 行 计算 以 处 理 大 型 数据 集 。 


5.2.2 RHIPE 一 一 在 Hadoop MapReduce 中 执行 R 语言 


R 和 Hadoop 集成 编程 环境 CRHIPE) 是 一 个 R 语言 库 ， 以 使 用 户 可 在 R 编程 语言 中 
运行 Hadoop MapReduce 作业 。R 程序 员 需 要 编写 R Map 和 Reduce 函数 ， 同 时 ，RHIPE 
库 将 对 其 进行 转换 ， 并 调用 相应 的 Hadoop Map 和 Hadoop Reduce 任务 。 其 间 ，RHIPE 
使 用 了 协议 缓冲 编码 方案 转换 Map 和 Reduce 输入 。 与 其 他 并 行 R 数据 包 相 比 ，RHIPE 
的 优点 在 于 : 可 较 好 地 与 Hadoop 集成 ， 并 在 机 器 集群 间 利用 HDFS 提供 数据 分 布 方案 ， 
进而 实现 容错 机 制 并 对 处 理 器 应 用 进行 优化 。 


5.23 R 和 Hadoop 流 


Hadoop 流 API 可 使 用 户 利用 任何 可 执行 的 脚本 运行 Hadoop MapReduce 作业 ， 并 作 
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为 mapper 或 reducer 读 取 标 准 输入 中 的 数据 ,或 者 是 将 数据 写 入 标准 输出 中 .因此 ,Hadoop 
流 式 API 可 在 Map BK Reduce 阶段 与 R 语言 编程 脚本 结合 使 用 。 这里, R 与 Hadoop 间 的 
集成 方法 并 不 涉及 任何 客户 端 集成 ， 其 原因 在 于 ， 流 式 作 业 通 过 Hadoop 命令 行 启用 。 提 
交 后 的 MapReduce 作业 通过 UNIX 标准 流 和 序列 化 进行 转换 ， 无 论 程序 员 提 供 的 输入 脚 
本 语言 是 什么 ， 均 可 确保 Java 输入 进入 Hadoop。 

关于 及 语言 与 Hadoop 间 的 集成 ， 读 者 还 可 尝试 提出 自己 的 解决 方案 。 


5.24 RHIVE 一 一 在 工作 站 上 安装 R 并 连接 至 Hadoop 数据 


如果 希望 在 R 接口 中 执行 Have 查询 ，RHIVE 包 则 是 一 个 首选 方案 ， 其 中 包含 了 元 
数据 的 检索 功能 ， 例 如 Apache Hive 中 的 数据 库 名 称 、 列 名 和 表 名 。 通 过 R 函数 扩展 
HiveSQL， 对 于 存储 于 Hadoop 中 的 数据 ，RHIVE 提供 了 R 编程 语言 中 丰富 的 统计 库 和 
算法 。 针 对 Apache Hive 编目 后 的 、 存 储 于 Hadoop 集群 中 的 数据 ，RHIVE 函数 支持 用 户 
使 用 R 统计 学 习 模 型 。 针 对 Hadoop-R 集成 方案 ，RHIVE 的 优点 在 于 : 鉴于 数据 操作 下 
推 至 Hadoop 中 ， 因 而 可 实现 并 行 操作 ， 并 可 避免 数据 的 移动 行为 。 


5.25 ORCH 一 一 基于 Hadoop 的 Oracle 连接 器 


ORCH 可 用 于 非 Oracle Hadoop 集群 或 其 他 Oracle 大 数据 装置 上 。mapper 和 reducer 
采用 R 语言 编写 , 而 MapReduce 则 通过 高 级 接口 在 R 环境 中 执行 .对 于 及 语言 的 Hadoop 
集成 , 当 采 用 ORCH if, R 程序 员 不 必 学 习 新 的 编程 语言 (如 Java) 就 可 以 深入 了 解 Hadoop 
环境 的 细节 ， 如 Hadoop 集群 硬件 或 软件 。ORCH 连接 器 还 允许 用 户 通过 相同 的 函数 调用 
在 本 地 测试 MapReduce 程序 的 功能 ， 这 比 将 它们 部 署 到 Hadoop 集群 早 得 多 。 

对 于 R-Hadoop 大 数据 分 析 来 说 ， 开 源 方案 的 数量 仍 处 于 持续 增长 中 , 但 对 于 简单 的 
Hadoop MapReduce 来 说 ，R-Hadoop 流 已 被 证 明 是 一 类 最 佳 处 理 方案 。R 和 Hadoop 组 合 
方案 可 视 为 大 数据 处 理 过 程 中 不 可 或 缺 的 工具 ， 并 可 生成 快速 的 预测 分 析 结 果 ， 同 时 兼 
顾 所 需 的 性 能 、 可 伸缩 性 和 灵活 性 。 

R 语言 的 优点 是 它 提供 了 用 于 统计 和 数据 可 视 化 的 详尽 的 数据 科学 库 列表 ， 这 一 点 
已 从 许多 Hadoop 用 户口 中 得 到 证 实 。 但 是 , R 语言 中 的 数据 科学 库 其 本 质 上 是 非 并 行 的 ， 
这 也 使 得 数据 检索 较为 耗 时 一 一 这 体现 了 R 编程 语言 内 在 的 局 限 性 。 如 果 抛 开 这 一 点 , R 
和 Hadoop 的 整合 方案 对 于 大 数据 分 析 来 说 则 极 具 优势 。 


53 数据 分 析 


R 语言 支持 各 种 数据 分 析 操作 。 在 Python 的 pandas 中 所 做 的 一 切 ， 我 们 也 可 以 在 及 
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中 加 以 实现 。 
考查 下 列 代码 : 


df = read.csv(file-file.choose(), header-T, fill-T, sep-",", 


stringsAsFactors-F) 


其 中 ，fie.choose0 表 示 将 生成 一 个 新 窗口 ， 并 选择 要 打开 的 数据 文件 ，header=T 意 
味 着 读 取 数 据 头 ; fill=T 表示 对 于 未 定义 或 丢失 的 数据 值 填写 NaN; 最 后 ，sep="," 是 指 当 
前 已 知晓 如 何 区 分 .csv 文件 中 不 同 的 数据 值 。 在 当前 示例 中 , 将 采用 逗号 对 数值 进行 分 隔 ; 
stringsAsFactors 表示 将 所 有 的 字符 串 值 视 为 字符 串 ， 而 非 因子 。 这 也 使 得 我 们 在 后 续 操 
作 过 程 中 替换 数据 值 。 
对 应 结果 如 图 5.1 所 示 。 


图 5.1 


按 下 Enter 键 后 ， 将 显示 如 图 5.2 所 示 的 窗口 。 


Select file 
^ ThisPC > Windows (C:) > Users »Username» work 


Organize v New folder 


images a 


work ipynb_checkpoints 


91 OnlineRetail 
Untitled.ipynb. 


二 OneDrive 
GB This PC 


JI 30 Objects 
Bl Desktop 


Untitled! ipynb 


Documents 
$ Downloads 
J Music 

i=) Pictures 

Bl Videos 

= Windows (C:) 
= Data (D) 


iS Network v 


File name: | OnlineRetail «| All files (**) 


Open Cancel 


图 5.2 
无 论 哪 一 种 操作 系统 ， 都 将 会 看 到 一 个 打开 的 窗口 ， 并 允许 选择 一 个 文件 。 接 下 来 ， 
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将 看 到 如 图 5.3 所 示 的 内 容 。 


图 5.3 


其 中 ， 右 侧 窗 口中 显示 了 一 个 名 为 df 的 新 字段 。 单 击 该 字段 ， 将 显示 如 图 5.4 所 示 


的 内 容 。 


图 5.4 


对 于 已 创建 的 数据 帧 ， 下 面 开始 执行 分 析 工 作 。 

处 ， 相 关 信 息 包括 行 - 列 数量 、 数 据 帧 的 长 度 以 及 列 名 。 考 查 下 列 代码 行 及 其 相应 
的 输出 结果 : 

> is.data.frame (df) 

1] TRUE 


» ncol (df) 
1] 8 


» length (df) 
1] 8 
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> nrow (df ) 
1] 27080 


> names (df) 
1] "InvoiceNo" "StockCode" "Description" "Quantity" 


"UnitPrice" "CustomerID" "Country" 


» colnames (df) 
1] "InvoiceNo" "StockCode" "Description" "Quantity" 


"UnitPrice" "CustomerID" "Country" 
ae RRS trn ^E STE. SUE PAM: 
di - df[1:3] 

对 应 结果 如 图 5.5 所 示 。 


| Lu 
mY Filter 
InvoiceNo * StockCode * Description 


WHITE HANGING HEART T-LIGHT HOLDER 
WHITE METAL LANTERN 
AT HANGER 


TER BOTTLE 


HAND WARMER UNION JACK 
HAND WARMER RED 
ORTED 


PPYS PLAYHOL 


ORY KNITTED 
OF RTED 
OF VINTAGE JIG 
OF VINTAGE ALPHABET B 
HOME BUILDING B 
LOVE BUILDING B K WORD 
RECIPE BOX WTH METAL HEART 
)RMAT NEW ENGLAND 


Showing 1 to 20 of 27.080 entries 


"InvoiceDate" 


"InvoiceDate" 
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基本 上 讲 ， 我 们 选择 了 1、2、3 列 作为 dl 的 数据 集 。 除 了 列 之 外 ， 还 可 以 选取 相应 
的 行 。 下 列 代码 定义 了 di: 
dl = df[1:10, c(1:3)] 


对 应 结果 如 图 5.6 所 示 。 


| Ci | Ei 
Mm 了 Fiter 
^ InvoiceNo * StockCode * Description 


AR FROSTED T- 


R UNION JAC 


[T E 


m 
に 


Sho wing 1 to 10 of 10 entries 


图 5.6 
除 此 之 外 ， 还 可 以 访问 数据 帧 的 某 一 列 ， 如 下 所 示 : 
vi = df[I31] 
这 将 把 数据 的 全 部 列 赋予 v1。 接 下 来 访问 vl 的 前 5 列 元素 , 如 下 所 示 : 
v1[1:5] 


对 应 结果 如 图 5.7 所 示 。 


[1] "WHITE HAN CREAM CUPID HEARTS COAT HANGER 


[4] "KNITTED UNIO y t BO 1 LLY WHITE HEART. 


另外 ， 还 可 执行 下 列 操作 : 


v2 = df$Description 
ZE 


对 应 结果 如 图 5.8 所 示 。 
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[1] "WHITE HANGTNG HEART T-LIGHT HOLDER" "WHITE METAL LANTERN CREAM CUPID HEARTS COAT HANGER" 


[4] "KNITTED UNION FLAG HOT WATER BOTTLE" "RED WOOLLY HOTTIE WHITE HEART." 


图 5.8 
我 们 甚至 可 对 单一 行进 行 访问 (假设 己 知晓 特定 值 )。 考 查 下 列 股票 代码 : 
dl[di$stockCode == "85123A", ] 
对 应 结果 如 图 5.9 所 示 。 


di[di$stockcod "85 A" ] 
InvoiceNo Stockcode Description 


1 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 


图 5.9 
下 列 代码 展示 了 如 何 访 问 特定 行 : 


dar = dEi: roc B) 
dir eTe 


对 应 结果 如 图 5.10 所 示 。 


InvoiceNo Stockcode Description Quantity InvoiceDate UnitPrice CustomerID Country 
2 536365 71053 WHITE METAL LANTERN 6 12/1/10 8:26 3.39 17850 united Kingdom 


图 5.10 
类 似 于 Python 中 的 .head0 函 数 ，R 中 定义 了 一 个 head0 函 数 ， 如 下 所 示 : 
head (df) 


吉 果 如 图 5.11 所 示 。 


Description Quantity Inv JnitPrice CustomerID Country 

5123A WHITE HANGING HEART T-LIGHT HOLDER [2 inited Kingdom 
53 WHITE METAL LANTERN 6 0 0 united Kingdom 

0 United Kingdom 


0 united Kingdom 
Inited Kingdom 
united Kingdom 


图 5.11 


我 们 还 可 添加 一 个 参数 ， 进 而 选择 希望 显示 的 行 数量 ， 例 如 前 10 行 数据 。 对 应 代码 
如 下 所 示 : 


head(df, 10) 
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: 战 


对 应 结果 如 图 5.12 所 示 。 


Stockcode Description Quantity i ni e tome! < y 
WHITE HANGING HEART T-LIGHT HOLDER 5 United Kingdom 

WHITE METAL LANTERN 0 United Kingdom 

CREAM CUPID HEARTS COAT HANGER 0 0 United kingdom 

KNITTED UNION FLAG HOT WATER BOTTLE 6 0 S 0 united kingdom 

RED WOOLLY HOTTIE WHITE HEART. 6 0 8:2 Y 0 united Kingdom 


HKA NES BOXE 2 0 united Kingdom 
536365 0 ED T-LIGHT HOLDER 6 0 united Kingdom 
536366 3 AND WARM o 6 12 0 .8 0 united Kingdom 
536366 RMER RI A 6 .85 0 united Kingdom 

United Kingdom 


相应 地 ， 还 可 将 第 2 个 


head(d1, -2) 


所 示 : 


对 应 结果 如 图 5.13 月 


voiceNo Stockcode Description Quantity voiceDate Unitprice CustomerID Country 
53636 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 12 5 2.55 united kingdom 
536365 WHTTE METAL LANTERN 6 5 united Kingdom 
J CREAM CUPID HEARTS COAT HANGER £ 5 united Kingdom 

8 KNITTED UNION FLAG HOT WATER BOTTLE 6 0 5 7850 united Kingdom 

84029E RED WOO : \ ART 7850 united Kingdom 

22752 7 BABUSHKA NESTING BOX united Kingdom 

21730 GLA TAR FROSTED T-LIGHT HOLDER 4 50 united Kingdom 

33 HAND WARMER UNION JACK 6 0 y 17850 united Kingdom 


类 似 地 ， 还 可 使 用 tail0 函 数 显 示 最 后 n fT. 如 下 所 示 : 
tai1 (q1, 4) 


对 应 结果 如 图 5.14 月 


iceNo stockcode iption Quantity yiceDate UnitPrice CustomerID Country 
AR FROSTED T-LIGHT HOLDER 61 50 united Kingdom 

61 B 7850 united Kingdom 

61 8 - 7850 united Kingdom 

32 1 United Kingdom 


图 5.14 


与 head0 函 数 类 似 ，tail0 函 数 中 也 可 将 第 2 个 参数 设置 为 负数 ， 如 下 所 示 : 


tail (dl, -2) 


这 将 显示 nrow(d1)+n 行 。 其 中 , n 
所 示 。 


示 为 传递 至 tail0 函 数 中 的 参数 。 对 应 结果 如 图 5.15 
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iption Quantity 


Country 
HANGER 


ed Kingdom 
Kingdom 
d Kingdom 
Kingdom 
Kingdom 


United Kingdom 


图 5.15 


我 们 可 以 对 某 一 列 进行 一 些 基本 的 统计 分 析 ， 但 首先 需要 对 数据 进行 转换 。 相 应 地 ， 
可 执行 min0、max0、mean0 等 操作 ， 如 下 所 示 : 


min (as.numeric (df$UnitPrice) ) 
[1] 0 

min (df$UnitPrice) 

[1] 0 


其 中 ，as.numeric0O 表 示 字 符 串 数据 将 被 转换 为 数字 。 当 前 示例 并 未 涉及 字符 串 值 ; 
否则 ，min(df$UnitPrice) 将 返回 0， 如 下 所 示 : 


max (df$UnitPrice) 
[1] 16888.02 


mean (df$UnitPrice) 
[51857857586 


median (df$UnitPrice) 
[1] 2.51 


quantile (df$UnitPrice) 


对 应 结果 如 图 5.16 所 示 。 


75% 100% 


4.24 16888.02 


图 5.16 
另外 ， 还 可 添加 另 一 个 参数 ， 进 而 自 定 义 百 分 比值 ， 如 下 所 示 : 
quantile(df$UnitPrice, c(0; 1, “Sr -9) 


对 应 结果 如 图 5.17 所 示 。 
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sd(dfSUnitPrice) 的 输出 结果 如 图 5.18 所 示 。 


quantile(df$unitPrice, c(0, 


0% 10% 5 90% j UnitPrice 


0.00 0.83 2.51 7.95 [1] 145.796 
| 


图 5.17 图 5.18 
这 表示 为 dfSUnitPrice 的 标准 偏差 。 此 外 ， 还 可 计算 方差 ， 如 下 所 示 : 
var (df$UnitPrice) 


对 应 结果 如 图 5.19 所 示 。 
range(df$UnitPrice) 的 输出 结果 如 图 5.20 所 示 。 


var (df $unitPrice 


[1] 21256.46 


图 5.19 图 5.20 
除 此 之 外 ， 还 可 得 到 由 5 个 数值 构成 的 概括 内 容 ， 即 最 小 值 、 第 1 个 分 位 数 、 中 位 
数 ( 即 50% 标 记 ) 、 第 3 个 分 位 数 〈75% 标 记 ) 以 及 最 大 值 ， 如 下 所 示 : 
fivenum(df$UnitPrice) 


对 应 结果 如 图 5.21 所 示 。 


4.24 16888.02 


图 5.21 
相应 地 ， 还 可 对 所 选 列 进行 绘制 ， 如 下 所 示 : 
plot (dfSUnitPrice) 
对 应 结果 如 图 5.22 所 示 。 
鉴于 存在 不 同类 型 的 绘制 结果 ， 因 而 可 引入 另 一 个 参数 并 指定 绘制 类 型 。 考 查 下 列 
代码 : 
plot (df$UnitPrice, type="p") 


对 应 结果 如 图 5.23 所 示 。 
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df$UnitPrice 
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20000 30000 40000 60000 


Index 


图 5.23 


不 难 发 现 ， 图 3.23 与 图 5.22 相同 。 另 外 ， 还 可 使 用 较 小 的 范围 ， 以 使 显示 结果 看 起 
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来 不 那么 拥挤 ， 如 下 所 示 : 


di = dflo:30, e(1:8)] 
plot (d1$UnitPrice) 


对 应 结果 如 图 5.24 所 示 。 
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图 5.24 
出 于 简单 考虑 ， 下 面 重新 定义 dl1， 其 仅 包含 UnitPrice 列 ， 如 下 所 示 : 


di = di$UnitPrice 
plot (dl, type="p") 


对 应 结果 与 图 5.24 相同 。 
考查 下 列 代码 : 
plot (dl, type="1") 

对 应 结果 如 图 5.25 所 示 。 

下 列 代码 显示 了 dl 的 效果 图 : 
plot (dl, type-"b") 


对 应 结果 如 图 5.26 所 示 。 
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图 5.26 
图 526 中 显示 了 dl 的 点 - 线 示意 图 ， 但 在 图 中 上 方 处 ， 二 者 却 并 未 重 登 。 对 此 ， 查 看 下 列 


代码 : 


plot (dl, type="c") 


[应 结果 如 图 5.27 所 示 。 


A 
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Index 


图 5.27 
图 5.27 表示 为 之 前 type="b" 的 直线 图 。 考 查 下 列 代码 : 
plot(dl, type-"o") 
对 应 结果 如 图 5.28 所 示 。 
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图 5.28 表示 为 dl 的 直线 -点 图 ， 且 在 上 方 彼 此 重 登 ， 而 对 于 下 列 代码 : 


plot (d1, type="h") 


对 应 结果 如 图 5.29 所 示 。 


下 列 代码 显示 了 dl 的 直方 图 : 

plot (dl, type-"s" 

对 应 结果 如 图 5.30 所 示 。 

下 列 代码 显示 了 dl 的 阶 状 图 : 

plot (dl, type-"S") 

对 应 结果 如 图 5.31 所 示 。 

图 5.30 和 图 5.31 之 间 的 差别 在 于 : 第 1 幅 图 像 定义 为 type="s"， 因 而 首先 在 水 平方 
向 上 进行 绘制 ， 随 后 是 垂直 方向 。 第 2 幅 图 则 定义 为 type="S"， 且 首先 在 垂直 方向 上 进 
行 绘制 ， 随 后 是 水 平方 向 。 这 一 差别 在 图 中 可 以 清楚 地 看 到 。 
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图 5.31 


除 此 之 外 ， 还 存在 一 些 其 他 的 可 用 参数 ， 如 下 所 示 : 
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#Note: these are parameters, not individual lines of code. 


#The title of the graph 
main-"Title" 


#Subtitle for the graph 
sub-"title" 


#Label for the x-axis 
xlab="X Axis" 


#Label for the y-axis 
ylab="Y Axis" 


#The aspect ratio between y and x. 
asp=1 
考査 下 列 示例 : 


plot (dl, type-"h", main-"Graph of Unit Prices vs Index", sub -"First 30 
Rows", xlab - "Row Index", ylab-"Prices", asp-1.4) 


对 应 结果 如 图 5.32 所 示 。 
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图 5.32 
另外 ， 使 用 rbindO 函 数 还 可 将 两 个 不 同 的 数据 帧 进行 整合 。 
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考查 下 列 代码 : 


d2 = df[0:10, c(1:8)] 
d3 dE[21:30,; &(1:8)] 
d4 rbind (d2, d3) 


d2 的 结果 如 图 5.33 所 示 。 


a: Oo Bos Be ff 
* A 了 Fiter 
~ InvoiceNo  StockCode ê Description $ Quantity ê invoiceDate ê UnitPrice ê Customer 


图 5.33 


ao TEE TET 
es a Trte 
^ InvoiceNo + StockCode + $ Quantity + InvoiceDate ê Unitprice + CustomerID + Country 


United Kingdom 


图 5.34 


d4 的 结果 如 图 5.35 所 示 。 

需要 注意 的 一 点 是 , 传递 至 rbind0 中 的 全 部 数据 帧 须 包 含 相同 的 列 , 而 对 顺序 则 无 要 求 。 
此 外 ， 还 可 对 两 个 数据 帧 进行 合并 。 

考查 下 列 代码 : 

d2 = df[0:11, c("InvoiceNo", "StockCode", "Description")] 


d3 — df[11:20, c("StockCode", "Description", "Quantity")] 
d4 merge (d2, d3) 
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L LU a 
Mm YT Fitter 
~ InvoiceNo ê StockCode * Description $ Quantity ê InvoiceDate ê UnitPrice ê CustomerID * Country 


ITE H A T 6 12nn 178 United K 


ted Kingdom 
ted Kingdom 
ited Kingdom 


ited Kingdom 


au | E | D | DH 
MY Filter 
InvoiceNo * StockCode * Description 


Ma 
和 


WHITE HANGING HEART TUGHT 


WHITE METAL LANTERN 


WARMER UNION JACK 


HAND WARMER RED POLKA D 
RTED COLOUR BIRD 


Poe go っ gm um = eo po ピロ 


ロロ 


POPPYS PLAYH BED 


Showing 1 to 11 of 11 entries 


d3 的 结果 如 图 5.37 所 示 。 
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[ Lu Bu | EA 
mY Filter 
^ StockCode * Description 


TH METAL HEART 


MAT NEW ENGLAND 


Showing 1 to 10 of 10 entries 


d4 的 结果 如 图 5.38 所 示 。 


| Ei | Ei Mus | CA 
“で TY Filter 


^ StockCode * Description InvoiceNo ê Quantity 


à 5 POPPYS PLAYHOU 


Showing 1 to 1 of 1 entries 


图 5.38 
因此 ， 在 默认 状态 下 ，merge0 采 用 了 内 连接 。 
接 下 来 考查 外 连接 ， 对 应 代码 如 下 所 示 : 
d4 = merge(d2, d3, all-T) 

对 应 结果 如 图 5.39 所 示 。 
下 列 代码 显示 了 左 外 连接 : 


d4 = merge(d2, d3, all.x-T) 


对 应 结果 如 图 5.40 所 示 。 


| El | E 
mY Filter 


StockCode ê Description = InvoiceNo 


Showing 1 to 20 of 20 entries 


| Lj | Li | E Bu Ba 
++ E YF Filter Q 
StockCode ê Description InvoiceNo * Quantity * 


WARMER RED PC 


WARMER U 


Showing 1 to 11 of 11 entries 


下 列 代码 显示 了 右 外 连接 : 


d4 = merge(d2, d3, all.y-T) 
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对 应 结果 如 图 5.41 所 示 。 


| Ei | Eu | EH a 
+ mY Filter 


StockCode * Description = InvoiceNo 


21754 ` NG A 


Showing 1 to 10 of 10 entries 


LES 
最 后 是 


又 连接 ， 如 下 列 代码 所 示 : 
d4 = merge(d2, d3, by=NULL) 


对 应 结果 如 图 5.42 F 
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T 示 。 
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Showing 1 to 20 of 110 entries 
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与 pandas 类 似 ， 可 以 使 用 “by=” 在 两 个 数据 项 间 指 定 .x 和 .y， 而 非 x 和 _y。 考 查 
下 列 代码 : 
d4 = merge(d2, d3, by="StockCode", all-T) 
这 表示 为 StockCode 列 上 的 外 连接 ， 对 应 结果 如 图 5.43 所 示 。 


ETE TET 
LJ mT Filter a 
* StockCode $ invoiceNo * Description.x $ Descriptiony * Quantity * 


Showing 1 to 20 of 20 entries 


图 5.43 
我 们 可 以 把 所 有 的 命令 都 记录 下 来 ， 以 备 不 时 之 需 。 执 行 下 列 代码 可 保存 命令 日 志 : 
savehistory(file-"logname.Rhistory") 


执行 下 列 代码 可 加 载 历 史记 录 : 


loadhistory(file-"logname.Rhistory") 


如 果 希 望 查看 历史 记录 ， 则 可 简单 地 执行 下 列 命令 : 


history() 


对 应 结果 如 图 5.44 所 示 。 
下 列 代码 用 于 检查 数据 ， 以 判断 是 否 存在 空 数据 : 


colSums (is.na (df)) 
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Environment History Connections 
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Tines(d4$unitprice, type="p") 

(d4$unitprice) 

d4$unitPrice) 
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plot (d4$unitprice) 
lin 4$unitPrice) 
plot 0) 
plotCd4$stockcode, d4$unitprice) 
view(d4) 

d. table(file-file. choos 


header-T, 


log.Rhi 
1ogname. Rhistory 


图 5.44 


图 5.45 


回忆 一 下 ， 当 合并 两 个 数据 帧 时 ， 某 些 数据 值 包 含 y NaN， 如 下 所 示 : 


g 
N 
Il 


df[0:11, c("InvoiceNo", "StockCode", "Description") ] 
= df[11:20, c("StockCode", "Description", "Quantity") ] 


Q 
w 
| 


接 下 来 ， 对 其 进行 外 部 合并 ， 如 下 所 示 : 


d4 = merge(d2, d3, all-T) 


并 尝试 执行 下 列 代码 : 


colSums (is.na(d4)) 


对 应 结果 如 图 5.46 所 示 。 


Quantity 
0 10 


除 此 之 外 ， 还 可 对 数据 值 进 行 蔡 换 。 
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假设 希望 将 数据 项 (价格 大 于 3) 的 描述 内 容 修改 为 "Miscellaneous"， 考 查 下 列 代码 : 


di = d£[0:30, c(1:8)] 


对 应 结果 如 图 5.47 所 示 。 


mo 
mY Fitter 
^ InvoiceNo * StockCode * = Quantity ê invoiceDate * Unitprice * CustomerD * Country 


Showing 1 to 20 of 30 entries 


Console Terminal 
wa 


图 5.47 

随后 查看 下 列 代 码 : 

dl [d1$UnitPrice > 3, "Description"] <- "Miscellaneous" 

对 应 结果 如 图 5.48 所 示 。 

从 图 5.48 中 可 以 看 到 ， 单 价 大 于 3 的 数据 项 ， 其 描述 内 容 已 修改 为 "Miscellaneous"。 

除了 “>” 之 外 ， 还 可 使 用 其 他 运算 符 ， 进 而 替换 其 他 列 中 的 数值 。 

假设 包含 发 票 号 536365 的 各 数据 项 均 来 自 United States。 鉴 于 包含 了 相同 的 发 票 号 
和 发 票 日 期 ， 因 而 可 使 用 二 者 之 一 选择 列 ， 如 下 所 示 : 

dl [d1$InvoiceNo == 536365, "Country"] = "United States" 


对 应 结果 如 图 5.49 所 示 。 
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需要 注意 的 是 ， 这 里 使 用 了 “=”， 而 非 “<-”。 在 当前 上 下 文中 ， 二 者 均 表 示 为 赋 
值 操作 ， 因 而 可 视 作 等 同 。 
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本 章 讨论 了 如 何 使 用 R 语言 执行 数据 分 析 。 此 外 ， 还 介绍 了 R 语言 和 Hadoop 间 的 
各 种 集成 方案 。 
第 6 章 将 讨论 Apache Spark， 并 在 批 处 理 模型 的 基础 上 以 此 执行 大 数据 分 析 。 
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本 章 主要 讨论 Apache Spark， 以 及 如 何 根据 批 处 理 模 型 进行 大 数据 分 析 。Spark SQL 
是 位 于 Spark Core 之 上 的 一 个 组 件 ， 可 用 于 查询 结构 化 数据 。 它 正在 成 为 事实 上 的 工具 ， 
并 逐渐 取代 了 Hive， 成 为 Hadoop 批量 分 析 的 一 种 选择 方案 。 

除 此 之 外 ,本 章 还 将 学 习 如 何 使 用 Spark 并 针对 结构 化 数据 进行 分 析 ( 相 应 地 , 包含 
任意 文本 的 文档 则 是 非 结 构 化 数据 的 一 个 例子 ， 以 及 需要 转换 为 结构 化 形式 的 其 他 一 些 
数 据 格式 ) 。 我 们 将 考查 DataFrame/ 数 据 集 的 基础 知识 ， 以 及 SparkSQL API 如 何 简化 结 
构 化 数据 的 查询 任务 ， 同 时 兼顾 其 健壮 性 特征 。 

此 外 ， 本 章 还 将 介绍 数据 集 ， 并 讨论 数据 集 、DataFrame 和 RDD 间 的 差异 。 具 体 来 
说 ， 本 章 主 要 包含 以 下 主题 : 

SparkSQL 和 DataFrame. 
DataFrame 和 SQL API。 
DataFrame 模式 。 
数据 集 和 编码 器 。 

加 载 和 保存 数据 。 

聚合 。 

连接 。 


ロロ ロロ ロロ ロ 


6.1 SparkSQL 和 DataFrame 


在 Apache Spark 之 前 ， 当 在 大 型 数据 集 上 执行 SQL 查询 操作 时 ， 一 般 采 用 Apache 
Hive 技术 予以 实现 。Apache Hive 本 质 上 将 SQL 查询 转换 为 MapReduce， 在 不 需要 编写 
Java 和 Scala 复杂 代码 的 情况 下 ， 可 简化 多 种 大 数据 分 析 工作 。 

随 着 Apache Spark 的 出現 , 在 大 数据 范围 内 进行 分 析 方 面 , 存在 一 个 范式 转变 。Spark 
SQL 在 Apache Spark 的 分 布 式 计算 功能 之 上 提供 了 一 个 SQL Ez. 并 以 此 简化 应 用 。 实 际 
上 ，Spark SQL 可 用 作 在 线 分 析 处 理 数据 库 。Spark SQL 的 工作 方式 可 描述 为 : 将 SQL 
语句 解析 为 抽象 语法 树 CASTO ， 随 后 将 该 计划 转换 为 逻辑 执行 计划 ， 并 将 该 逻辑 计划 
优化 为 可 执行 的 物理 计划 ， 如 图 6.1 所 示 。 
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计划 


Catalyst 
优化 器 


化 计划 


—— 


物理 计划 


图 6.1 


最 终 执行 过 程 采用 了 底层 的 DataFrame API。 通 过 简单 地 使 用 SQL 接口 (SEAT f 
内 部 情况 ), 对 于 任何 用 户 来 说 , 都 可 方便 地 使 用 DataFrame API。 本 章 主要 考査 DataFrame 
API， 并 通过 相关 示例 展示 Spark SQL， 进 而 比较 API 的 不同 使用 方 式 。 因 此 , DataFrame 
API 可 视 作 Spark SQL 的 底层 内 容 。 此 外 , 本 章 还 将 利用 各 种 技术 介绍 DataFrame 的 构建 
方 式 , 包括 SQL 查询 ， 以 及 DataFrame 上 的 各 种 操作 。 

DataFrame 表示 为 弹性 分 布 式 数 据 集 RDD) 之 上 的 抽象 层 ， 用 于 处 理 优化 后 的 高 层 
函数 ， 其 高 效 性 通过 Project Tungsten 得 以 充分 体现 。 

Project Tungsten 可 视 作 Spark 引擎 的 最 大 变化 ， 主 要 体现 在 CPU 的 性 能 以 及 Spark 
应 用 程序 的 内 存 方面 。 该 项 目 包含 以 下 内 容 : 

口 内 存 管 理 和 二 进 制 处 理 。 

口 ”缓存 计算 。 

O ”代码 生成 。 
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Qi. 
关于 Project Tungsten 的 更 多 信息 ， 读 者 访问 https://databricks.com/blog/2015/04/28/ 
project-tungsten-bringing-spark-closer-to-bare-metal.html . 


我 们 可 将 数据 集 视 为 RDD 上 高 效 的 表 ， 其 中 包含 了 优化 后 的 数据 的 二 进 制 表达 。 这 
里 ， 二 进 制 表达 通过 编码 器 实现 ， 并 将 各 类 对 象 序 列 化 为 二 进 制 结果 。 与 RDD 相 比 ， 这 
将 体现 更 好 的 性 能 。 由 于 DataFrame 在 内 部 使 用 了 RDD, 因 此 , DataFrame/ 数 据 集 的 分 
布 方式 实际 上 与 RDD 相似 ， 因 而 也 是 一 类 分 布 式 数据 集 。 显 然 ， 这 意味 着 数据 集 是 不 可 
图 6.2 显示 了 数据 的 二 进 制 表达 方式 。 


2 column table (id: Int, word:String) 


(45, "hello) [oxo | 45 


(64, "world") 


filter 
(64, "world") 


irst 3 chars 
oxo] 12 


图 6.2 
Spark 1.6 中 加 入 了 数据 集 , 并 在 DataFrame 上 提供 了 强 类 型 机 制 ,实际 上 , 自 Spark 2.0 
以 来 ，DataFrame 即 简单 地 表示 为 数据 集 (Dataset) 的 别名 。 
O sx. 
http://spark.apache.org/sql/*P 3t DataFrame 类 型 定义 为 Dataset[Row], 这 意味 着 ， 大 多 
数 API 均 可 与 数据 集 和 DataFrame.type DataFrame = Dataset[Row] 实 现 良好 的 协同 工作 。 


从 概念 上 讲 ，DataFrame 类 似 于 关系 数据 库 中 的 表 。 因 此 ,DataFrame 包含 了 数据 行 ， 
且 每 行 由 多 个 列 构成 。 需 要 注意 的 是 ， 类 似 于 RDD，DataFrame 同样 不 可 变 。DataFrame 
的 这 种 不 可 变 属性 意味 着 ， 每 次 转换 或 操作 都 会 创建 一 个 新 的 DataFrame。 

下 面 进一步 讨论 DataFrame 及 其 与 RDD 间 的 差别 。 如 前 所 述 ，RDD 表示 为 Apache 
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Spark 中 数据 操控 的 底层 API。DataFrame 则 在 EDD 之 上 创建 ， 同 时 抽象 了 RDD 的 底层 
内 部 工作 机 制 ， 且 仅 展 示 高 层 API 一 一 除了 易于 使 用 之 外 ， 还 提供 了 丰富 的 功能 项 。 
DataFrame 是 按照 Python panda 包 、R、Julia 等 语言 中 的 类 似 概念 加 以 创建 的 。 
如 前 所 述 ，DataFrame 将 SQL 代码 和 特定 域 的 语言 表达 转换 为 优化 后 的 执行 计划 ， 
并 在 Spark Core API 之 上 运行 ， 以 便 SQL 语句 执行 广泛 的 操作 。DataFrame 支持 多 种 不 
同类 型 的 数据 源 和 操作 ， 其 中 包括 大 多 数 数据 库 中 所 有 的 SQL 操作 类 型 ， 例 如 连接 、 分 
组 、 聚 合 以 及 窗口 函数 。 

Spark SQL 与 Hive 查询 语言 十 分 类 似 ， 其 原因 在 于 : Spark 提供 了 与 Apache Hive 之 
间 的 天 然 适配器 ， 采 用 Apache Hive 工作 的 用 户 可 方便 地 将 其 知识 运用 于 Spark SQL 中 ， 
从 而 进一步 缩短 了 过 渡 期 。 实 际 上 ，DataFrame 依赖 于 之 前 所 谈 到 的 表 这 一 概念 。 

另外 ， 表 操作 与 Apache Hive 的 工作 方式 也 十 分 类 似 。 实 际 上 ，Apache Spark 中 的 表 
操作 与 Apache Hive 的 表 处 理 方式 较为 相似 .对 于 DataFrame K, 可 将 其 注册 为 DataFrame 
表 ， 并 利用 Spark SQL 语句 对 数据 进行 操作 ， 进 而 蔡 代 DataFrame API. 

DataFrame 依赖 于 catalyst 优化 器 以 及 Tungsten 所 带 来 的 性 能 改进 ， 下 面 简要 介绍 一 
下 catalyst 优化 器 的 工作 方式 。catalyst 优化 器 从 输入 的 SQL 中 创建 解析 后 的 逻辑 执行 计 
划 ， 并 于 随后 通过 查看 全 部 属性 和 SQL 语句 中 所 用 的 列 分 析 罗 辑 执行 计划 。 一 旦 创建 了 
经 分 析 后 的 逻辑 执行 计划 ，catalyst 优化 器 将 尝试 进一步 优化 该 执行 计划 ， 即 整合 多 项 操 
作 ， 并 重组 当前 逻辑 ， 进 而 获取 更 好 的 性 能 。 
Oz. 

为 了 更 好 地 理解 catalyst 优化 器 ， 可 将 其 视 为 一 般 意 义 上 的 逻辑 优化 器 ， 并 可 对 过 滤器 
和 转换 这 一 类 操作 重新 排序 ; 某 些 时 候 , 还 可 将 多 项 操作 整合 为 单一 操作 , 进而 最 小 化 worker 
节点 间 混 洗 的 数据 量 。 例如 ， 当 在 不 同 的 数据 集 间 执 行 连接 操作 时 ，catalyst 优化 器 可 决定 广 
播 较 小 的 数据 集 。 另 外 ，catalyst 优化 器 还 可 计算 DataFrame 列 和 分 区 的 统计 结果 , 进而 改善 
执行 速度 。 


如 果 数 据 分 区 上 存在 转换 和 过 滤器 ， 那 么 过 滤 数 据 和 应 用 转换 的 顺序 对 操作 的 整体 
性 能 影响 很 大 。 作 为 最 终 的 优化 结果 ， 这 将 生成 优化 后 的 逻辑 执行 计划 ， 然 后 将 其 转换 
为 物理 执行 计划 。 

显然 ， 多 项 物理 执行 计划 可 能 会 执行 相同 的 SQL 语句 ， 进 而 生成 同一 结果 。 基 于 开 
销 优 化 和 估算 结果 ， 开 销 优 化 逻辑 负责 确定 、 选 取 较 好 的 物理 执行 计划 。 与 之 前 的 版 本 
相 比 ( 例 如 Spark 1.6 或 更 早 的 版 本 ) ，Tungsten 是 Spark 2.x 性 能 改进 背后 的 另 一 个 关键 
因素 。Tungsten 实现 了 对 内 存 管理 和 其 他 性 能 的 整体 改进 。 其 中 ， 大 多 数 重要 的 内 存 管 


第 6 章 Apache Spark 批 处 理 分 析 ・171・ 


理 改进 措施 采用 了 二 进 制 对 象 编码 , 井 在 堆 外 和 堆 内 内 存 中 対 其 加 以 引用 。 因 此 , Tungsten 
支持 堆 内 存 应 用 ， 即 采用 二 进 制 编码 机 制 对 所 有 对 象 进行 编 码 。 相 应 地 ， 二 进 制 编码 对 
象 所 占用 的 内 存 空 间 则 要 少 得 多 。 

除 此 之 外 ，Project Tungsten 还 进一步 改进 了 混 洗 性 能 。 具 体 来 说 ， 数 据 一 般 通 过 
DataFrameReader 加 载 至 DataFrame 中 ， 并 通过 DataFrameWriter 从 DataFrame 中 予以 保存 。 


6.2 DataFrame API 和 SQL API 


DataFrame 可 通过 多 种 方式 创建 ， 具 体 如 下 : 

口 执行 SQL 查询 ， 加 载 Parquet、JSON、CSV、Text、Hive、JDBC 等 外 部 数据 。 
口 将 RDD 转换 为 DataFrame。 

Q ”加载 CSV 文件 。 

此 处 将 考查 大 量 的 statesPopulation.csv 文件 ， 并 于 随后 将 其 作为 DataFrame 加 载 。 
# 6.1 显示 了 CSV 文件 包含 的 美国 各州 的 人 口数 量 (2010—2016 年) 。 


表 6.1 
State Population 
Alabama 4785492 
Alaska 714031 
Arizona 6408312 
Arkansas 2921995 
California 37332685 


由 于 CSV 文件 包含 了 文件 头 ， 因 而 可 利用 隐 式 模式 检测 快速 地 将 数据 加 载 至 
DataFrame 中 , 如 下 所 示 : 


Scala» val statesDF = spark.read.option("header", 
"true").option("inferschema", "true").option("sep", 
",").csv("statesPopulation.csv") 

statesDF: org.apache.spark.sql.DataFrame = (State: string, Year: int ... 
1 more field] 


待 DataFrame 加 载 完毕 后 ， 即 可 执行 模式 检测 ， 如 下 所 示 : 


scala» statesDF.printSchema 
root 
1-- State: string (nullable = true) 
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|-- Year: integer (nullable = true) 
|-- Population: integer (nullable = true) 


Oza: 

这 里 , option("header","true").option("inferschema", "true").option("sep", "通知 Spark, 
CSV 文件 包含 了 文件 头 。 其 中 ， 运 号 分 隔 符 用 于 分 隔 字段 / 列 ， 也 可 以 隐 式 地 对 模式 进行 
推断 。 


DataFrame 将 解析 逻辑 执行 计划 ， 对 其 进行 分 析 和 优化 ， 最 终 运行 物理 执行 计划 。 
DataFrame 上 的 explain 显示 了 执行 计划 ， 如 下 所 示 : 


Scala» statesDF.explain (true) 

== Parsed Logical Plan == 

Relation [State#0,Year#1,Population#2] csv 

== Analyzed Logical Plan == 

State: string, Year: int, Population: int 

Relation [State#0, Year#1,Population#2] csv 

== Optimized Logical Plan == 

Relation [State#0,Year#1,Population#2] csv 

== Physical Plan == 

*FileScan csv [State#0, Year#1,Population#2] Batched: false, Format: CSV, 
Location: InMemoryFileIndex[file:/Users/salla/states.csv], 
PartitionFilters: [], PushedFilters: [], ReadSchema: 
struct<State:string, Year:int, Population:int> 


DataFrame 还 可 注册 为 一 个 表 名 ， 随 后 可 像 关 系数 据 库 那样 输入 SQL 语句 ， 如 下 所 示 : 


Scala» statesDF.createOrReplaceTempView ("states") 


— H, DataFrame 定义 为 结构 化 的 DataFrame 或 表 ， 即 可 运行 相关 命令 并 对 数据 进行 
操作 , 如 下 所 示 : 


Scala» statesDE . show (5) 
Scala» spark.sql("select * from states limit 5") .show 
ーーーーーーーーーー ニー ニー ホー ニニ ニニ ニー ニジニ ーーー: + 
| State|Year|Population| 

ーー ニーーーー ニ ーーーー e + 
| Alabama|2010| 4785492| 

| Alaska|2010| 714031] 

| Arizona|2010| 6408312| 

| Arkansas|2010| 2921995| 
|California|2010| 37332685| 
ーー ニーーーーーーーー d + 
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在 上 述 代 码 片段 中 ， 我 们 使 用 了 SQL 语句 ， 并 通过 spark.sql API 执行 该 语句 。 
Qz: 
Spark SQL 被 简单 地 转换 为 DataFrame API 并 用 以 执行 ,而 SQL 只 是 易于 使 用 的 DSL。 


当 对 DataFrame 使 用 sort 操作 时 ， 可 通过 任意 列 对 DataFrame 中 的 行进 行 排序 。 此 
我 们 利用 Population 实现 了 降序 排列 ; 行 则 通过 Population 实现 了 降序 排列 ， 如 下 所 示 : 


E 


Scala» statesDF.sort (col ("Population") .desc) .show (5) 
scala> spark.sql("select * from states order by Population desc limit 
5") .show 

q---------- aa 十 

| State|Year|Population| 

q---------- ーーーー ナ ーーーーーーーーーー 十 

1Ca1ifornial2016| 39250017| 

1Ca1ifornial2015| 38993940| 

1Ca1ifornial2014| 38680810| 

|California|2013| 38335203| 

1Ca1ifornial2012| 38011074| 

4---------- 4----—4---------- 十 


使 用 groupBy， 可 以 按 任何 列 对 DataFrame 进行 分 组 。 下 列 代码 通过 State 对 行进 行 
分 组 ， 随 后 针对 每 一 个 State 累加 Population 计数 。 


Scala» statesDF.groupBy ("State").sum("Population").show(5) 
Scala» spark.sql("select State, sum(Population) 
from states group by State 

limit 5").show 

ーー ニー ニー ニー ニー ニー ネー ニー ニーー ニ ーー ニー ニー ニニ ーー ニー + 

| State|sum(Population)| 

4--------- 4--------------- 十 

| Utah| 20333580| 

| Hawaii| 9810173| 

|Minnesota| 37914011| 

| Ohio| 81020539| 

| Arkansas| 20703849| 

ーーーーーーーーー キーーーーーーーーーーーーーーー + 


使用 agg， 可 在 DataFrame 的 列 中 执行 不 同 的 操作 ， 例 如 计算 某 个 列 的 min. max. 
avg。 除 此 之 外 ， 还 可 同时 执行 上 述 操作 并 对 列 进行 重 命名 ， 进 而 满足 相关 用 例 的 要 求 ， 
如 下 所 示 : 
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scala» 

statesDF.groupBy ("State") .agg(sum("Population") .alias ("Total") ) . show (5) 
scala> spark.sql ("select State, sum(Population) as Total from states group 
by State limit 5") .show 


*--- ーー ナーーーーーーーー + 
| Statel Totall 
4--------- T-------- * 


| Utah1203335801 

| Hawaii| 9810173| 
I|Minnesota|37914011| 
| 0hio|81020539| 

| Arkansas|20703849| 
4--------- 4-------- * 


自然 状态 下 , 逻辑 越 复杂 , 执行 计划 也 随 之 变 得 更 加 复杂 。 下 面 深 入 考查 执行 groupBy 
和 agg API 操作 的 计划 。 下 列 代码 显示 了 groupBy 子 句 ， 以 及 每 个 State 人 口 总 量 的 执行 
计划 。 

scala> 

statesDF.groupBy ("State") .agg (sum("Population") .alias ("Total")) .explain 

(true) 

== Parsed Logical Plan == 

'Aggregate [State#0], [State#0, sum('Population) AS Total#31886] 

+- Relation[State#0,Year#1,Population#2] csv 

== Analyzed Logical Plan == 

State: string, Total: bigint 

Aggregate [State#0], [State#0, sum(cast (Population#2 as bigint)) AS 

Total#31886L] 

+- Relation[State#0,Year#1,Population#2] csv 

== Optimized Logical Plan == 

Aggregate [State#0], [State#0, sum(cast (Population#2 as bigint)) AS 

Total#31886L] 

+- Project [State#0, Population#2] 

+- Relation[State#0, Year#1,Population#2] csv 

== Physical Plan == 

*HashAggregate (keys=[State#0], functions=[sum(cast (Population#2 as 

bigint))], output=[State#0, Total#31886L]) 

+- Exchange hashpartitioning(State#0, 200) 

*- *HashAggregate (keys=[State#0], functions-[partial sum(cast (Population#2 

as bigint))], output=[State#0, sum#31892L]) 

+- *FileScan csv [State#0,Population#2] Batched: false, Format: CSV, 

Location: InMemoryFileIndex[file:/Users/salla/states.csv], 
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PartitionFilters: [] , PushedFilters: [] , ReadSchema: 
struct«State:string,Population:int» 


DataFrame 可 实现 链 式 操 作 , 其 间 , 执行 过 程 可 充分 利用 (开销 ) 优 化 结果 , 即 Tungsten 
所 带 来 的 性 能 改进 ， 以 及 catalyst 优化 器 。 除 此 之 外 ， 还 可 在 单一 语句 中 实现 链 式 操作 ， 
其 中 涉及 基于 State 列 的 分 组 操作 、Population 值 的 求 和 , 以 及 基于 列 求 和 结果 的 DataFrame 
排序 ， 如 下 所 示 : 


scala> 


statesDF.groupBy ("State") .agg (sum("Population") .alias ("Total") ) .sort (col 
("Total") .desc) .show(5) 

scala> spark.sql("select State, sum(Population) as Total from states group 
by State order by Total desc limit 5") .show 


4---------- 4--------- * 
| State| Total| 
4---------- 4--------- * 


|California|268280590 
| Texas|185672865| 

| Florida|137618322| 

| New York|137409471]| 

| Illinois| 89960023| 

4---------- 4--------- * 


上 述 链 式 操作 包含 了 多 项 转换 和 操作 ， 如 图 6.3 所 示 。 


DataFrame DataFrame 分 组 后 的 数据 


JE Lus 
groupBy 


DataFrame 


图 6.3 
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另外 ， 还 可 同时 创建 多 项 聚合 操作 ， 如 下 所 示 : 


Scala» statesDF.groupBy ("State") .agg( 
min("Population").alias("minTotal"), 

max ("Population") .alias ("maxTotal"), 

avg ("Population") .alias ("avgTota1") ) 

-Sort (col ("minTotal") .desc) . show (5) 

scala> spark.sql("select State, min(Population) as minTotal, 
max (Population) as maxTotal, avg (Population) as avgTotal from states group 
by State order by minTotal desc limit 5") .show 

4---------- 4-------- 4-------- 4-------------------- * 

| State|minTotal|maxTotal| avgTotal| 

4---------- 4-------- 4-------- 4-------------------- 十 
1Californial3733268513925001713.8325798571428575E71 

| Texas|25244310|27862596| 2.6524695E71 

| New York|19402640|19747183| 1.962992442857143E7| 

| Florida|18849098|20612439|1.9659760285714287E7 | 

| Illinois|12801539|12879505|1.2851431857142856E7 | 
4---------- 4-------- 4-------- 4-------------------- 十 


6.2.1 旋转 


为 了 创建 更 适合 执行 多 项 汇总 和 聚合 的 不 同 视图 ， 转 换 表 的 最 佳 方法 之 一 是 旋转 。 
对 此 ， 可 以 通过 列 值 并 使 每 个 值 都 成 为 实际 的 列 来 实现 这 一 点 。 

下 面 将 通过 Year 旋转 DataFrame 中 的 行 ， 并 对 结果 进行 检查 。 最 终结 果 涵 盖 了 Year 
列 中 的 数值 ， 其 中 ， 每 个 值 都 形成 了 一 个 新 的 列 。 这 样 做 的 最 终结 果 是 ， 我 们 不 仅 可 以 
查看 Year 列 ， 还 可 以 使 用 创建 的 Per Year 列 按 Year 进行 汇总 和 聚合 ， 如 下 所 示 ; 


Scala» statesDF.groupBy ("State") .pivot ("Year") .sum("Population") .show(5) 
+--------- 4--------- 4--------- 4--------- 4--------- 4--------- +--------- + 
| State| 2010| 2011| 2012| 2013| 2014| 2015| 2016| 

e 
| Utah| 2775326| 2816124| 2855782| 2902663| 2941836| 2990632| 3051217| 
| Hawaii] 1363945| 1377864| 1391820| 1406481| 1416349| 1425157| 1428557| 
|Minnesota| 5311147| 5348562| 5380285| 5418521| 5453109| 5482435] 5519952| 
1Ohiol11540983111544824|115508391115700221115944081116050901116143731 

| Arkansas| 2921995| 2939493| 2950685| 2958663| 2966912| 2977853| 2988248| 
ーーーーーーーーー ーーーーーーーーー キーーーーーーーーー ーーーーーーーーー ーーーーーーーーーー エーーーーーーーーー ーーーーーーーーー 十 
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622 ”过 滤器 


DataFrame 也 支持 过 滤器 。 通 过 过 滤 DataFrame 行 ， 还 可 用 于 生成 新 的 DataFrame. 
Filter 可 对 数据 执行 较为 重要 的 转换 ， 进 而 将 DataFrame 缩减 至 当前 用 例 。 
下面 考査 DataFrame 过 滤 机 制 的 执行 计划 ， 且 仅 查 看 California 的 状态 ， 如 下 所 示 : 


scala» statesDF.filter(" 
== Parsed Logical Plan == 

'Filter ('State = California) 

+- Relation[State#0, Yearf1,Populationf2] csv 

== Analyzed Logical Plan == 

State: string, Year: int, Population: int 

Filter (State#0 = California) 

+- Relation[State#0, Year#1,Population#2] csv 

== Optimized Logical Plan == 

Filter (isnotnull(State#0) && (State#0 = California) ) 

+- Relation[State#0, Year#1,Population#2] csv 

== Physical Plan == 

*Project [State#0, Year#1, Population#2] 

+- *Filter (isnotnull(State#0) && (State#0 = California) ) 

+- *FileScan csv [State#0,Year#1,Population#2] Batched: false, Format: 
CSV, Location: InMemoryFileIndex[file:/Users/salla/states.csv], 
PartitionFilters: [], PushedFilters: [TsNotNu1 1 (State), 
EqualTo(State,California)], ReadSchema: 
struct<State:string, Year:int, Population:int> 


根据 上 述 执行 计划 ， 下 面 执行 filter 命令 ， 如 下 所 示 : 


tate == 'California'").explain(true) 


Scala» statesDF.filter("State == 'California'").show 
4---------- 4----4---------- 十 

| State|Year|Population| 

4--- ーーー キ ーーーー キ ーーーーーーーーーー 十 


|California|2010| 373326851 
1Ca1ifornial2011| 376768611 
1Californial20121 38011074| 
1Ca1ifornial2013| 38335203| 
1Ca1ifornial2014| 38680810| 
|California|2015| 38993940| 
|California|2016| 39250017| 
4---------- 4----—4---------- 十 
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6.2.3 用 户 定义 的 函数 


用 户 定 义 的 函数 (UDF) 定义 了 基于 列 的 新 函数 ， 并 扩展 了 Spark SQL 的 功能 项 。 
当 Spark 的 内 建 函数 无 法 处 理 某 些 场景 时 ，UDE 将 变 得 十 分 有 用 。 
9 zz: 

udfO 在 内 部 调用 UserDefinedFunction 类 ， 该 类 将 于 内 部 依次 调用 ScalaUDF。 

UDF 简单 地 将 State 列 值 转换 为 大 写 。 首 先 ， 需 要 在 Scala 中 构建 函数 ， 如 下 所 示 ; 


import org.apache.spark.sql.functions. 
scala» val toUpper: String => String = _.toUpperCase 
toUpper: String => String = <functionl> 


随后 需要 将 所 生成 的 函数 封装 至 udf 中 ， 进 而 构建 UDF， 如 下 所 示 : 


scala» val toUpperUDF = udf (toUpper) 
toUpperUDF: org.apache.spark.sql.expressions.UserDefinedFunction = 
UserDefinedFunction (<function1>, StringType, Some (List (StringType))) 


利用 所 生成 的 udf， 可 将 State 列 转换 为 大 写 内 容 ， 如 下 所 示 : 


Scala» statesDF.withColumn ("StateUpperCase", 
toUpperUDF (col ("State") )) . show (5) 


4---------- q----4---------- 4q-------------- 十 
| State|Year|Population|StateUpperCase| 
4---------- ーーーー キ ーーーーーーーーーー 4-------------- * 


| Alabama|2010| 4785492| ALABAMA| 

| Alaska|2010| 714031| ALASKA| 

| Arizona|2010| 6408312| ARIZONA| 

| Arkansas|2010| 2921995| ARKANSAS| 
|California|2010| 37332685| CALIFORNIA| 
4---------- ーーーー キ ーーーーーーーーーー 4q-------------- * 


6.3 ”模式 一 一 数据 的 结构 


模式 可 视 为 一 种 数据 结构 的 描述 ， 可 呈现 为 隐 式 或 显 式 状态 。 由 于 DataFrame 在 内 
部 基于 RDD， 因 而 存在 两 种 主要 方式 可 将 现 有 的 RDD 转换 为 数据 集 ， 有 具体 如 下 : 
ü 利用 反射 推断 RDD 的 模式 。 
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O 在 编程 接口 的 帮助 下 ， 可 通过 现 有 的 RDD 展示 某 种 模式 ， 并 将 EDD 转换 为 基 
于 模式 的 数据 集 。 


6.3.1 ERER 


下 面 的 示例 尝试 将 逗号 分 隔 的 数值 (CSV) 文件 加 载 至 DataFrame 中 。 若 文 本 文件 
包含 了 一 个 文件 头 , 那么 , read API 可 以 此 对 模式 进行 推断 。 除 此 之 外 , 还 可 指定 分 隔 符 ， 
进而 分 隔 文本 文件 行 〈 可 选 ) 。 

接 下 来 ， 将 读 取 csv 文件 并 从 文件 头 中 推断 对 应 的 模式 ， 同 时 使 用 逗号 作为 分 隔 符 。 
此 外 ， 此 处 还 将 展示 schema 命令 和 printSchema 命令 的 用 法 ， 进 而 验证 输入 文件 的 模式 ， 
如 下 所 示 : 

Scala» val statesDF = spark.read.option("header", "true") 

-option ("inferschema", "true") 

-option("sep", ",") 

.csv ("statesPopulation.csv") 


statesDF: org.apache.spark.sql.DataFrame = (State: string, Year: int ... 1 
more field] 


Scala» statesDF.schema 


res92: org.apache.spark.sql.types.StructType - StructType( 
StructField(State,StringType,true), 
StructField(Year,IntegerType,true), 
StructField(Population,IntegerType,true)) 

Scala» statesDF.printSchema 

root 


|-- State: string (nullable = true) 
1-- Year: integer (nullable = true) 
1-- Population: integer (nullable = true) 


6.3.2 BRRR 


该 模式 使 用 StructType 予以 描述 ， 并 表示 为 StructField 対象 集合 。 
Oss. 

StructType 和 StructField 隶属 于 StructType and StructField &; 例如 ，DataTypes (例如 
IntegerType 和 StringType ) 同样 属于 org.apache.spark.sql.types 包 。 


通过 此 类 导入 语句 ， 即 可 自 定义 相应 的 显 式 模式 。 
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首先 须 导入 下 列 类 : 
scala> import org.apache.spark.sql.types.{StructType, IntegerType, 
StringType} 


import org.apache.spark.sql.types.{StructType, IntegerType, StringType} 


下 面 定义 一 个 模式 ,其 中 包含 两 个 列 /字段 和 一 个 整数 ， 后跟 一 个 字符 串 ， 如 下 所 示 : 


scala> val schema 
StringType) 

Schema: org.apache.spark.sql.types.StructType 
StructType (StructField (i, IntegerType, true) ,StructField(s, StringType, true) ) 


对 于 刚刚 生成 的 schema， 其 输出 结果 如 下 所 示 : 


scala> schema.printTreeString 
root 

1-- i: integer (nullable 
1-- s: string (nullable 


此 外 还 可 输出 JSON， 其 中 使 用 了 prettyJson 函数 ， 如 下 所 示 : 


scala» schema.prettyJson 
res85: String = 


{ 


new StructType() .add("i", IntegerType) .add("s", 


true) 
true) 


"type" "strüct^, 
"fields" LA 
"name" Nm, 
"type" "integer", 
"nullable" : true, 
"metadata" DS 
Tren 

"name" Lis jua 
"type" "string", 
"nullable" : true, 
"metadata" T 


) 
) 


注意 ， 所 有 的 Spark SQL 数 
下 列 导 入 语句 对 


据 类 型 均 位 于 org.apache.spark.sql.types 包 中 ， 并 可 通过 


" 


进行 访问 : 


import org.apache.spark.sql.types. | 
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6.3.3 编码 器 


针对 复杂 的 数据 类 型 ，Spark 2.x 支持 多 种 模式 定义 方式 。 这 里 ， 首 先 考查 一 个 简单 
的 示例 。 其 间 ， 当 使 用 Encoders 时 ， 需 要 通过 import 语句 导入 Encoders, 如 下 所 示 。 


import org.apache.spark.sql.Encoders 
下 列 示例 将 定义 完毕 的 元 组 作为 数据 类 型 ， 并 用 于 数据 集 API 中 。 


Scala» Encoders.product[(Integer, String)].schema.printTreeString 
root 

|-- 1: integer (nullable = true) 

|-- 2: string (nullable = true) 

上 述 代码 稍 显 复杂 且 经 常 使 用 ， 因 而 可 将 其 定义 为 一 个 类 ， 以 供 后 续 操 作 使 用 。 
相应 地 ，Record 类 包含 了 两 个 字段 ， 即 Integer 和 String， 如 下 所 示 : 


Scala» case class Record(i: Integer, s: String) 
defined class Record 


通过 Encoders， 可 方便 地 在 类 之 上 构建 一 个 模式 ， 进 而 可 方便 地 使 用 各 种 API, 如 下 
所 示 : 

Scala» Encoders.product [Record] .schema.printTreeString 

root 

|-- i: integer (nullable = true) 

|-- s: string (nullable = true) 

所 有 的 Spark SQL 数据 类 型 均 位 于 org.apache.spark.sgl.types 包 中 ， 并 可 通过 下 列 导 
入 语句 对 其 进行 访问 : 

import org.apache.spark.sql.types. 


此 处 应 在 代码 中 使 用 DataTypes 対象 , 以 便 生成 复杂 的 Spark SQL 类 型 ,例如 数组 和 
映 射 , 如 下 所 示 : 

Scala» import org.apache.spark.sql.types.DataTypes 

import org.apache.spark.sql.types.DataTypes 


scala» val arrayType = DataTypes.createArrayType (IntegerType) 
arrayType: org.apache.spark.sql.types.ArrayType = 


ArrayType (IntegerType, true) 


K 62 列 出 了 SparkSQL API 所 支持 的 数据 类 型 。 
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表 6.2 
数据 类 型 Scala 中 的 值 类 型 访问 或 创建 数据 类 型 的 API 

ByteType Byte ByteType 

ShortType Short ShortType 

IntegerType Int IntegerType 

LongType Long LongType 

FloatType Float FloatType 

DoubleType Double DoubleType 

DecimalType java.math.BigDecimal DecimalType 


StringType StringType 
BinaryType BinaryType 
BooleanType Boolean BooleanType 
TimestampType TimestampType 


DateType DateType 
ArrayType scala.collection.Se ArrayType(elementType.[containsNull 


MapType scala.collection.Map Map Type(tey Typevalie Type ualent Ag 。 注 
意 , valueContainsNull 的 默认 值 为 TRUE 

StructType org.apache.spark.sql.Row peni ee ,字段 表示 为 StructFields 的 Seq. 
另外 ， 此 处 不 支持 包 


含 相同 名 称 的 两 个 字段 
64 ”加 载 数据 集 


Spark SQL 可 通过 DataFrameReader 接口 从 外 部 存储 系统 中 读 取 数据 ,例如 文件 ,Hive 
表 和 JDBC 数据 库 。 
API 调用 格式 定义 为 spark.read.inputtype, 如 下 所 示 : 
Parquet. 
CSV. 
Hive X. 
JDBC. 
ORC. 
Text. 
JSON. 
下 面 通过 一 组 简单 示例 将 CSV 文件 读 入 DataFrame 中 , 如 下 所 示 : 


ロロ ロロ ロロ ロ 
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scala> val statesPopulationDF = spark.read.option ("header", 
"true").option("inferschema", "true").option("sep", 
",").csv("statesPopulation.csv") 

statesPopulationDF: org.apache.spark.sql.DataFrame = [State: string, Year: 
int ... 1 more field] 

scala» val statesTaxRatesDF = spark.read.option("header", 
"true").option("inferschema", "true").option("sep", 
",").csv("statesTaxRates.csv") 

statesTaxRatesDF: org.apache.spark.sql.DataFrame = [State: string, TaxRate: 
double] 


6.5 保存 数据 集 


Spark SQL 可 通过 DataFrameWriter 接口 从 外 部 存储 系统 中 读 取 数据 , 例 如 文件 、Hive 
表 和 JDBC 数据 库 。 
API 调用 格式 定义 为 dataframe.write.outputtype, 如 下 所 示 : 
Parquet。 
ORC。 
Text。 
Hive 表 
JSON。 
CSV。 
JDBC 
下 面 通过 一 组 简单 示例 将 DataFrame 写 入 或 保存 至 CSV 文件 中 , 如 下 所 示 : 
scala» statesPopulationDF.write.option("header", 
"true") .csv("statesPopulation dup.csv") 


Scala» statesTaxRatesDF.write.option("header", 
"true").csv("statesTaxRates dup.csv") 


ロロ ロロ ロロ ロ 


66 K > 


聚合 表示 为 基于 某 种 条 件 的 数据 采集 方法 ， 并 在 数据 上 执行 分 析 操 作 。 聚 合 对 于 理 
解 所 有 尺寸 的 数据 非常 重要 ， 因 为 对 于 大 多 数 用 例 来 说 ， 仅 仅 拥有 数据 的 原始 记录 并 不 
是 那么 有 用 。 
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O xz: 

假设 我 们 可 定义 一 个 表 ， 其 中 包含 了 5 年 内 世界 每 所 城市 每 天 的 温度 记录 值 。 

如 果 查 看 表 6.3 以 及 同一 数据 的 聚合 视图 ， 显然 , 原始 记录 无 法 帮助 我 们 理解 其 中 的 
数据 。 表 6.3 以 表 的 形式 列 出 了 原始 数据 。 


表 6.3 
City Date Temperature 
Boston 12/23/2016 32 
New York 12/24/2016 36 


Boston 12/24/2016 30 
Philadelphia 12/25/2016 34 
Boston 12/25/2016 28 


表 6.4 显示 了 每 所 城市 的 平均 温度 。 


Average Temperature 


Boston 30 - (32 + 30 + 28)/3 
New York 
Philadelphia 


6.6.1 聚合 函数 
在 org.apache.spark.sql.functions 包 中 的 相关 函数 的 帮助 下 ， 可 执行 聚合 操作 。 除 此 之 
外 ， 还 可 生成 自 定义 聚合 函数 ， 也 称 作用 户 定义 的 聚合 函数 CUDAF) 。 
0 zs. 
每 个 分 组 操作 返回 一 个 RelationalGroupedDataset， 并 可 在 此 之 上 指定 聚合 。 
我 们 将 加 载 示例 数据 ， 并 显示 所 有 聚合 函数 的 不 同类 型 ， 如 下 所 示 : 
val statesPopulationDF = spark.read.option("header", "true"). 
option("inferschema", "true"). 
option("sep", ",").csv("statesPopulation.csv") 


1. count 


count 是 一 个 最 基本 的 聚合 函数 ， 并 针对 指定 的 列 简单 地 计算 行 数量 。countDistinct 
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则 定义 为 count 的 扩展 ， 同 时 还 可 消除 重复 内 容 。 
count API 包含 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 


def count(columnName: String): TypedColumn[Any, Long] 

Aggregate function: returns the number of items in a group. 

def count(e: Column): Column 

Aggregate function: returns the number of items in a group. 

def countDistinct(columnName: String, columnNames: String*): Column 
Aggregate function: returns the number of distinct items in a group. 
def countDistinct(expr: Column, exprs: Column*): Column 

Aggregate function: returns the number of distinct items in a group. 


下 面 考查 一 些 在 DataFrame 上 调用 count 和 countDistinct 的 例子 ,并 输出 行 计数 结果 ， 
如 下 所 示 : 
import org.apache.spark.sql.functions. 


Scala» statesPopulationDF.select (col("*")).agg(count ("State") ) .show 
Scala» statesPopulationDF.select (count ("State") ) .show 


4------------ * 
| count (State) | 

4------------ * 

| 350| 

4------------ * 

Scala» statesPopulationDF.select (col ("*")) .agg (countDistinct ("State") ) . show 
Scala» statesPopulationDF.select (countDistinct ("State") ) .show 
4--------------------- * 

| count (DISTINCT State) | 

4--------------------- * 

| 50] 

2. first 


first 用 于 获取 RelationalGroupedDataset 中 的 第 一 条 记录 。 
first API 同样 包含 多 种 实现 ， 实 际 所 用 的 AP 取 決 干 特定 的 用 例 , 如 下 所 示 : 


def first(columnName: String): Column 

Aggregate function: returns the first value of a column in a group. 
def first(e: Column): Column 

Aggregate function: returns the first value in a group. 

def first(columnName: String, ignoreNulls: Boolean): Column 
Aggregate function: returns the first value of a column in a group. 
def first(e: Column, ignoreNulls: Boolean): Column 

Aggregate function: returns the first value in a group. 
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下面 考査 DataFrame 上 的 first 调用 ， 并 输出 第 一 行内 容 ， 如 下 所 示 : 


import org.apache.spark.sql.functions. _ 
scala» statesPopulationDF.select (first ("State") ) .show 


4------------------- 十 
|first (State, false) | 
4------------------- * 
| Alabama| 
4------------------- * 
3. last 


last 获取 RelationalGroupedDataset 中 的 最 后 一 条 记录 。 
last API 包含 了 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 


def last(columnName: String): Column 

Aggregate function: returns the last value of the column in a group. 
def last(e: Column): Column 

Aggregate function: returns the last value in a group. 

def last(columnName: String, ignoreNulls: Boolean): Column 


Aggregate function: returns the last value of the column in a group. 
def last(e: Column, ignoreNulls: Boolean): Column 
Aggregate function: returns the last value in a group. 


下面 考査 DataFrame 上 的 last 调用 ， 并 输出 最 后 一 行内 容 ， 如 下 所 示 ; 


import org.apache.spark.sql.functions. | 
Scala» statesPopulationDF.select (last ("State")).show 


4------------------ * 
[last (State, false) | 
4------------------ 十 
| Wyomingl 

4------------------ 十 


4. approx count distinct 

如 果 需 要 对 不 同 的 记录 进行 近似 计数 ， 那 么 ，approx_count distinct 则 是 一 种 更 快 的 
方法 ， 而 不 是 执行 精确 计数 ， 这 通常 会 涉及 大 量 的 混 洗 和 其 他 操作 。 

approx_count distinct API 包含 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 
所 示 : 

def approx count distinct(columnName: String, rsd: Double): Column 


Aggregate function: returns the approximate number of distinct items in a 
group. 
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def approx count distinct(e: Column, rsd: Double): Column 

Aggregate function: returns the approximate number of distinct items in a 
group. 

def approx count distinct(columnName: String): Column 

Aggregate function: returns the approximate number of distinct items in a 
group. 

def approx count distinct(e: Column): Column 

Aggregate function: returns the approximate number of distinct items in a 
group. 


下 面 考 查 DataFrame 上 的 approx count distinct 调用 示例 ， 并 输出 DataFrame 的 近似 
计数 结果 ， 如 下 所 示 : 
import org.apache.spark.sql.functions. 


scala> 
statesPopulationDF.select (col("*")).agg(approx count distinct ("State")).show 


5. min 


min 表示 为 DataFrame 中 某 一 个 列 的 最 小 列 值 。 如 果 打 算计 算 某 个 城市 的 最 低温 度 ， 
则 可 使 用 min。 

min API 包含 了 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 

def min(columnName: String): Column 

Aggregate function: returns the minimum value of the column in a group. 


def min(e: Column): Column 
Aggregate function: returns the minimum value of the expression in a group. 


下 面 考查 DataFrame 上 的 min 调用 示例 ， 并 输出 最 小 的 Population， 如 下 所 示 : 


import org.apache.spark.sql.functions. 
scala» statesPopulationDF.select (min ("Population") ) .show 
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Imin (Population) | 


6. max 

max 表示 为 DataFrame 中 某 个 列 的 最 大 列 值 。 如 果 打 算计 算 某 个 城市 的 最 高 温度 ， 
则 可 使 用 max。 

max API 包含 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 

def max(columnName: String): Column 

Aggregate function: returns the maximum value of the column in a group. 


def max(e: Column): Column 
Aggregate function: returns the maximum value of the expression in a group. 


下面 考査 DataFrame 上 max 的 调用 示例 ， 并 输出 最 大 Population, 如 下 所 示 : 


import org.apache.spark.sql.functions. 
Scala» statesPopulationDF.select (max ("Population") ) .show 


4--------------- 十 
|max (Population) | 
4--------------- 十 
| 392500171 
4--------------- 十 

7. avg 


数值 的 平均 值 计算 方式 可 描述 为 : 累加 全 部 值 并 将 对 应 结果 除 以 数值 的 数量 。 


Oss. 


flee, 1, 2, 3 的 平均 值 为 (1+2+3)/3=2 
avg API 包含 多 种 实现 ， 实 际 所 用 denAPI 取决 于 特定 的 用 例 ， 如 下 所 示 : 


def avg(columnName: String): Column 

Aggregate function: returns the average of the values in a group. 
def avg(e: Column): Column 

Aggregate function: returns the average of the values in a group. 


下 面 考查 DataFrame 上 avg 的 调用 示例 ， 并 输出 population 的 平均 值 ， 如 下 所 示 : 


import org.apache.spark.sql.functions. 


scala» statesPopulationDF.select (avg ("Population")).show 
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8. sum 


sum 用 于 计算 列 值 的 求 和 结果 。 作 为 一 种 备 选 方案 ，sumDistinct 仅 可 用 于 累加 不 同 值 。 
sumAPI 包含 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 


def sum(columnName: String): Column 

Aggregate function: returns the sum of all values in the given column. 
def sum(e: Column): Column 

Aggregate function: returns the sum of all values in the expression. 
def sumDistinct(columnName: String): Column 

Aggregate function: returns the sum of distinct values in the expression 
def sumDistinct(e: Column): Column 

Aggregate function: returns the sum of distinct values in the expression. 


下 面 考 查 DataFrame 上 sum 调用 示例 ， 并 输出 Population 的 求 和 结果 (全 部 值 〉， 
如 下 所 示 : 


import org.apache.spark.sqgl.functions. _ 
Scala» statesPopulationDF.select (sum("Population")).show 


4--------------- * 
| sum (Population) | 
4--------------- * 
| 2188689780] 
4--------------- * 
9. kurtosis 


kurtosis 是 一 种 量化 分 布 形状 差异 的 方法 ， 从 平均 值 和 方差 的 角度 看 ， 它 们 可 能 非常 
相似 ， 但 实际 上 是 不 同 的 。 

kurtosis API 包含 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 

def kurtosis (columnName: String): Column 

Aggregate function: returns the kurtosis of the values in a group. 


def kurtosis(e: Column): Column 


Aggregate function: returns the kurtosis of the values in a group. 


下 面 考查 DataFrame 上 kurtosis 的 调用 示例 〈 在 Population 列 上 ) ， 如 下 所 示 : 
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import org.apache.spark.sql.functions. 
Scala» statesPopulationDF.select (kurtosis ("Population")).show 


4q-------------------- 十 
|kurtosis (Population) | 
4-------------------- * 
| 7.727421920829375| 

4-------------------- 十 


10. skewness 


skewness 围绕 平均 值 或 中 位 数 计算 数据 值 的 非 对 称 性 。 

skewness 包含 了 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 
def skewness (columnName: String): Column 

Aggregate function: returns the skewness of the values in a group. 
def skewness (e: Column): Column 

Aggregate function: returns the skewness of the values in a group. 


下面 考査 DataFrame 上 skewness 的 调用 示例 在 Population 列 上 ) , 如 下 所 示 : 


import org.apache.spark.sql.functions. _ 
Scala» statesPopulationDF.select (skewness ("Population")).show 


方差 
方差 表示 为 每 个 值 与 平均 值 之 差 的 平方 的 平均 数 。 
var API 包 含 多 种 实现 ， 实 际 所 用 的 APL 取决 于 特定 的 用 例 ， 如 下 所 示 : 


def var pop(columnName: String): Column 

Aggregate function: returns the population variance of the values in a 
group. 

def var pop(e: Column): Column 

Aggregate function: returns the population variance of the values in a 
group. 

def var samp(columnName: String): Column 

Aggregate function: returns the unbiased variance of the values in a group. 
def var samp(e: Column): Column 


Aggregate function: returns the unbiased variance of the values in a group. 
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下面 考査 DataFrame 上 var pop 的 调用 示例 ， 并 计算 Population 的 方 差 , 如 下 所 示 : 


import org.apache.spark.sql.functions. | 
Scala» statesPopulationDF.select(var pop("Population")).show 


12. 标准 偏差 
标准 偏差 表示 为 方差 的 平方 根 。 
stddev API 包含 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 


def stddev(columnName: String): Column 

Aggregate function: alias for stddev samp. 

def stddev(e: Column): Column 

Aggregate function: alias for stddev samp. 

def stddev pop(columnName: String): Column 

Aggregate function: returns the population standard deviation of the 
expression in a group. 

def stddev pop(e: Column): Column 

Aggregate function: returns the population standard deviation of the 
expression in a group. 

def stddev samp(columnName: String): Column 

Aggregate function: returns the sample standard deviation of the 
expression in a group. 

def stddev samp(e: Column): Column 

Aggregate function: returns the sample standard deviation of the expression 
in a group. 


下面 考査 DataFrame 上 stddev 的 调用 示例 ， 并 输出 vde 标准 偏差 ， 如 下 所 示 : 


import org.apache.spark.sql.functions. | 
Scala» statesPopulationDF.select (stddev ("Population")).show 


ニー ニニ ニニ = ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニー ar 
| 7044528.191173398| 
ーーーーーーーーーーーーーーーーーーーーーーー: + 
13. HAE 


协 方差 是 两 个 随机 变量 间 联 合 变化 的 度量 过 程 。 
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covar 包含 多 种 实现 ， 实 际 所 用 的 API 取决 于 特定 的 用 例 ， 如 下 所 示 : 


def covar pop(columnNamel: String, columnName2: String): Column 


Aggregate function:returns the population covariance for two columns. 
def covar pop (column1: Column, column2: Column): Column 

Aggregate function:returns the population covariance for two columns. 
def covar samp(columnNamel: String, columnName2: String): Column 
Aggregate function:returns the sample covariance for two columns. 

def covar samp(columnl: Column, column2: Column): Column 

Aggregate function:returns the sample covariance for two columns. 


下 面 考查 DataFrame 上 covar pop 的 调用 示例 ， 进 而 计算 Year 和 Population 列 间 的 
协 方差 ， 如 下 所 示 : 


import org.apache.spark.sql.functions. 
scala» statesPopulationDF.select(covar pop("Year", "Population")).show 


4--------------------------- * 
lcovar pop(Year, Population) | 
4--------------------------- * 
| 183977.56000006935| 

4--------------------------- * 


14. groupBy 

数据 分 析 中 较为 常见 的 任务 是 将 数据 分 组 至 不 同 的 类 别 中 ， 并 于 随后 在 对 应 的 数据 
分 组 中 执行 计算 。 

下 面 尝 试 在 DataFrame 上 运行 groupBy， 并 输出 每 个 State 的 聚合 计数 结果 ， 如 下 所 示 : 


Scala» statesPopulationDF.groupBy ("State") . count. show (5) 


--------- ーーーーー 十 
| State|count| 
キーーーーーーーーー ーー ニーーー + 
| Utah| 7] 


| Hawaiil 7| 
|Minnesota| 7| 

| Ohio| 7I 

| Arkansas| 7| 
ーーーーーーーーー ョ ーーーーー + 


除 此 之 外 , 还 可 在 groupBy 的 基础 上 使 用 之 前 讨论 的 聚合 函数 , 例如 min, max, avg, 
stddev 等 , 如 下 所 示 : 


import org.apache.spark.sql.functions. 
scala» statesPopulationDF.groupBy ("State") .agg (min ("Population"), 
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avg ("Population") ) . show (5) 

4--------- 4--------------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| State|min(Population) | avg(Population) | 
--------- 4--------------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| Utah| 2775326| 2904797.14285714271 
| Hawaii| 1363945| 1401453.2857142857| 
|Minnesota| 5311147| 5416287.285714285| 
| Ohio| 1154098311.1574362714285715E7 1 
| Arkansas| 2921995| 2957692.714285714| 
4--------- 4--------------- 4-------------------- * 


15. rollup 

rollup 是 一 类 多 维 聚合 ， 用 于 执行 层次 或 嵌 套 计算 。 例 如 ， 如 果 打 算 针 对 每 个 State 
All Year 分 组 以 及 每 个 State 显示 记录 的 数量 (在 所 有 的 年 份 中 汇总 ， 无 论 Year 是 什么 ， 
都 能 得 到 每 个 State 的 总 计 结 果 ) ， 则 可 使 用 rollup， 如 下 所 示 : 


Scala» statesPopulationDF.rollup("State", "Year").count.show(5) 


4------------ 4----—4----- * 
| State|Year|count| 
4------------ 4----4----- * 


1South Dakota|2010| 1] 

| New York|2012| 1| 

| California|2014| 1| 

| Wyoming|2014| 1| 

| Hawaii|null| 7] 
4------------ ーーーー キ ーーーーー 十 


16. cube 

cube 是 一 类 多 维 聚 合 ， 用 于 执行 层次 或 嵌 套 计算 ， 这 一 点 与 rollup 类 似 ; 二 者 间 的 
差别 在 于 ，cube 针对 所 有 维度 均 执行 相同 的 操作 。 例 如， 如 果 打 算 针 对 每 个 State 和 Year 
分 组 以 及 每 个 State 显示 记录 的 数量 (在 所 有 的 年 份 中 汇总 ， 无 论 Year 是 什么 ， 都 能 得 
到 每 个 State 的 总 计 结 果 ) ， 则 可 使 用 cube， 如 下 所 示 : 


scala» statesPopulationDF.cube("State", "Year").count.show(5) 


ューーーーーーーーーーーー ーーーー ホ ーーーーー + 
| State|Year|count | 
ーーーーーーーーーーーー ーー ニー キーー ニ ーー ニー + 


1South Dakota|2010| 1| 
| New York|2012| 1| 

| nu11|2014]| 50] 

| Wyoming|2014| 1| 
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| Hawaii|null| 71 
二 -一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 一 十 


6.62 窗口 函数 


窗口 函数 可 在 数据 窗口 上 执行 聚合 操作 ， 而 不 是 全 部 数据 或 某 些 过 滤 后 的 数据 。 窗 
口 函数 的 应 用 示例 如 下 所 示 : 

口 累计 求 和 。 

口 对 于 相同 的 键 ， 相 对 于 上 一 个 值 的 Delta. 

Q ”加 权 移动 平均 值 。 

通过 执行 简单 的 计算 ， 我 们 可 指定 一 个 窗口 ， 并 查看 T-1、T 和 TH 行 。 除 此 之 外 ， 
还 可 在 最 近 / 最 新 的 10 个 值 上 指定 一 个 窗口 ， 如 图 6.4 所 示 。 


移动 窗口 


1 小 时 前 


图 6.4 


针对 Window 规范 的 API 需要 使 用 到 3 个 属性 ， 即 partitionByO. orderBy( fil 
rowsBetween()。 partitionBy 将 数据 分 块 至 partitionByO 指 定 的 分 区 /分 组 中 。orderByO 则 用 
于 对 每 个 数据 分 区 中 的 数据 进行 排序 。 

IowsBetween(O 指 定 了 窗口 帧 ， 或 者 是 移动 窗口 的 跨度 ， 进 而 执行 相关 计算 。 

当 使 用 Windows 函数 时 ， 需 要 导入 相关 数据 包 ， 如 下 所 示 : 


import org.apache.spark.sql.expressions.Window 
import org.apache.spark.sql.functions.col 
import org.apache.spark.sql.functions.max 


接 下 来 ， 可 针对 经 Population 排序 以 及 State 划分 的 分 区 创建 一 个 窗口 规范 。 除 此 之 
外 ， 还 需要 指定 所 考查 所 有 的 行 ， 直 到 当前 行为 窗口 的 部 分 内 容 为 止 ， 如 下 所 示 : 
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val windowSpec = Window 
.partitionBy ("State") 
-orderBy (col("Population").desc) 
-rowsBetween (Window.unboundedPreceding, Window.currentRow) 


随后 计算 Windows 规范 的 排名 。 只 要 对 应 行 落 入 至 所 指定 的 Windows 中 ， 最 终结 
表示 为 添加 至 每 行 中 的 排名 ( 行 号 )。 在 该 示例 中 ， 可 选择 通过 State 进行 划分 ， 随 后 按 
降序 对 每 个 State 行进 行 排序 。 因 此 ， 每 个 State 行 包含 其 自身 的 排名 号 ， 如 下 所 示 : 


import org.apache.spark.sql.functions. _ 
scala» statesPopulationDF.select(col("State"), col("Year"), 
max ("Population") . over (windowSpec) , 
rank () .over (windowSpec) ) . sort ("State", 
"Year") .show(10) 


| State |Year |max (Population) OVER (PARTITION BY State ORDER BY Population 
DESC NULLS LAST ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) | RANK ( ) 
OVER (PARTITION BY State ORDER BY Population DESC NULLS LAST ROWS BETWEEN 
UNBOUNDED PRECEDING AND CURRENT ROW) | 


|Alabama|2010| 4863300] 6| 
|Alabama|2011| 4863300| 7| 
|Alabama|2012| 4863300| 5| 
|Alabama|2013| 4863300| 4| 
|Alabama|2014| 4863300| 3| 


6.6.3 ntiles 


ntiles 是 一 类 较为 常见 的 窗口 上 的 聚合 操作 ,一 般 用 于 将 输入 的 数据 集 划 分 为 n 部 分 。 
例如 ， 如 果 希 望 通过 State (之 前 所 讨论 的 窗口 规范 〉 划 分 statesPopulationDF、 通 过 
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population 进行 排序 ， 并 于 随后 将 数据 集 划 分 为 两 部 分 内 容 ， 则 可 在 windowspec 上 使 用 
ntile, 如 下 所 示 : 


import org.apache.spark.sql.functions. | 


scala» statesPopulationDF.select(col("State"), col("Year"), 
ntile(2).over(windowSpec), rank().over(windowSpec)).sort("State", 
"Year").show(10) 


| State|Year|ntile(2) OVER (PARTITION BY State ORDER BY Population DESC 
NULLS LAST ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) |RANK() OVER 
(PARTITION BY State ORDER BY Population DESC NULLS LAST ROWS BETWEEN 
UNBOUNDED PRECEDING AND CURRENT ROW) | 


4------- q----—4------------------------------------------------------- 
ニニ ニニ ニニ ミミ ミニ ニニ ミミ ニニ ニニ ニニ ニニ ニニ ミミ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ミニミニ ミニ キミ ミニ ニニ ニニ ミニ ニニ 
ニニ ニニ ニニ ニニ ニー ニニ ニニ ニニ ニニ ニニ ニニ ニニ ニニ ー: 4 
Alabama|2010| 2| 6| 
Alabama|2011| 2| 7| 
Alabama|2012| 2| 5l 
Alabama|2013| 1| 4| 
Alabama|2014| 1| 3| 
Alabama|2015| 1| 2l 
Alabama|2016| 1| 1| 
Alaskal2010| 2| 7l 
Alaska|2011| 2| 6l 
Alaska|2012| 2| 5] 
ーーーーーーー +----+------------------------------------------------------- 
p 中 三 ニニ ニニ ニー ニー ニー ニー 


这 里 使 用 了 Windows 函数 以 及 ntile0, FHA State 行 划 分 为 两 个 相等 的 部 分 。 


Qi. 
ntileO 函 数 的 常见 应 用 是 计算 数据 科学 模型 中 所 用 的 十 分 位 数 (decile ) 。 
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67 ik 接 


在 传统 的 数据 库 中 ， 连 接 往往 用 于 将 一 个 事务 表 与 另 一 个 查找 表 连 接 ， 以 生成 更 完 
整 的 视图 。 例 如 ， 对 于 客户 ID 排序 的 在 线 事务 表 ， 以 及 包含 客户 所 在 城市 和 客户 ID 的 
男 一 个 表 ， 可 通过 连接 生成 城市 排序 后 的 事务 报告 内 容 。 

其 中 , 事务 表 定 义 了 3 个 列 , EI CustomerID. Purchased item 以 及 客户 所 交付 的 Price 
Paid， 如 表 6.5 所 示 。 


表 6.5 
CustomerID Purchased Item Price Paid 
Headphones 25.00 


1 

2 20.00 
3 20.00 
Í 
4 
3 


10.00 
10.00 
30.00 


客户 信息 表 定 义 了 两 列 ， 即 CustomerID 和 City, 如 表 6.6 所 示 。 


表 6.6 
CustomerID 
Boston 
New York 
Philadelphia 
Boston 
利用 客户 信息 表 连 接 事务 表 将 生成 如 表 6.7 所 示 的 视图 。 
表 6.7 


Price Paid 
25.00 


Purchased Item 
Headphone 


CustomerlD City 
Boston 
New York 

Philadelphia 


Boston 


Cable 10.00 


3000 


Boston 
Philadelphia 


1 
z 
3 
1 
4 
3 
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随后 可 使 用 连接 后 的 视图 生成 由 City 排序 后 的 Total Sale Price， 如 表 6.8 所 示 。 


表 6.8 
Cit Total Sale Price 
Boston 45.00 
Philadelphia 50.00 
New York 100.00 


连接 是 Spark SQL 中 的 重要 功能 ， 进 而 可 生成 前 述 两 个 组 合 在 一 起 的 数据 集 。 当 然 ， 
Spark 不 仅仅 是 用 于 生成 信息 报告 ， 还 可 处 理 以 拍 字 节 (Peta) 规模 的 数据 ， 进 而 解决 实 
时 流 式 用 例 、 机 器 学 习 算 法 或 者 是 数据 分 析 等 问题 。 为 了 实现 这 一 类 目标 ，Spark 提供 了 
所 需 的 API. 

两 个 数据 集 之 间 的 常见 连接 操作 一 般 使 用 左 、 右 数据 集 的 一 个 或 多 个 键 进行 ， 然 后 
将 键 集合 上 的 条 件 表达 式 计算 为 布尔 表达 式 。 如 果 布 尔 表达 式 的 结果 返回 TRUE， 则 表 
明 连 接 成 功 ， 和 否则 ， 连 接 后 的 DataFrame 将 不 会 包含 对 应 的 连接 结果 。 相 应 地 ，join API 
包含 6 种 不 同 的 实现 ， 具 体 如 下 : 

join(right: Dataset[ ]): DataFrame 

Condition-less inner join 

join(right: Dataset[ ], usingColumn: String): DataFrame 

Inner join with a single column 

join(right: Dataset[ ], usingColumns: Seq[String]): DataFrame 

Inner join with multiple columns 

join(right: Dataset[ ], usingColumns: Seq[String], joinType: String): 

DataFrame 


Join with multiple columns and a join type (inner, outer,....) 

join (right: Dataset[ ], joinExprs: Column): DataFrame 

Inner Join using a join expression 

join(right: Dataset[ ], joinExprs: Column, joinType: String): DataFrame 
Join using a Join expression and a join type (inner, outer, ...) 


我 们 将 通过 其 中 的 一 种 API 理解 join API 的 应 用 方式 。 当 然 ， 读 者 也 可 根据 具体 用 
例 选择 使 用 其 他 API。 


def join (right: Dataset[ ], joinExprs: Column, joinType: String): 
DataFrame 

Join with another DataFrame using the given join expression 
right: Right side of the join. 

joinExprs: Join expression. 

joinType : Type of join to perform. Default is inner join 

// Scala: 
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import org.apache.spark.sql.functions. 
import spark.implicits. _ 
dfl.join(df2, $"dflKey" === $"df2Key", "outer") 


稍 后 还 将 对 连接 操作 进行 详细 讨论 。 
6.7.1 连接 的 内 部 工作 机 制 


连接 的 工作 方式 可 描述 为 : 利用 多 个 连接 器 对 DataFrame 划分 进行 操作 。 然 而 ， 实 
际 操作 以 及 后 续 的 性 能 问题 取决 于 连接 的 类 型 ， 以 及 所 连接 的 数据 集 的 本 质 。 下 面 将 对 
不 同 的 连接 类 型 加 以 讨论 。 


6.7.2 混 洗 连接 

两 个 较 大 的 数据 集 之 间 的 连接 会 涉及 混 洗 连接 ， 其 中 ， 左 、 右 数据 集 的 划分 横 跨 执 
行 器 。 混 洗 过 程 的 代价 相对 高 晶 ， 但 重要 的 是 ， 混 洗 可 对 逻辑 进行 分 析 ， 以 确保 划分 和 
混 洗 分 布 以 最 优 方式 完成 。 

图 6.5 显示 了 混 洗 连接 的 内 部 工作 方式 。 


混 洗 连接 


图 6.5 
67.3 广播 连接 
在 一 个 大 数据 集 和 一 个 小 数据 集 之 间 ， 通 过 将 小 数据 集 广播 到 所 有 执行 器 来 执行 的 
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连接 称 为 广播 连接 。 
广播 连接 的 内 部 工作 方式 如 图 6.6 所 示 。 


P||P 
3| |1 


了 | 右 表 分 区 


P| 左 表 分 区 


6.74 连接 类 型 


表 6.9 显示 了 不 同 的 连接 类 型 。 需 要 注意 的 是 ， 当 连接 两 个 数据 集 时 ， 不 同 的 选择 策 
略 将 在 输出 和 性 能 上 有 所 差异 。 


表 6.9 
连 接 类 型 描述 
内 部 连接 比较 左 、 右 数据 集中 的 各 行 , 仅 当 二 者 均 包含 非 NULL 值 时 ， 
才 组 合 其 中 的 匹配 行 


全 外 连接 生成 左 、 右 表 中 的 所 有 行 。 如 果 希 望 保 留 两 个 表 中 的 全 部 行 ， 
可 采用 全 外 连接 。 当 一 个 表 中 存在 匹配 项 时 ， 全 外 连接 返回 所 有 行 


外 连接 、 全 连接 、 全 外 连接 


左 反 连 接 左 反 连 接 仅 生成 未 出 现 于 右 表 中 ， 且 存在 于 左 表 中 的 数据 行 

TN 左 外 连接 生成 左 表 中 的 全 部 行 , 以 及 左 、 右 两 表 中 的 公共 行 (内 连接 )。 
Sonne Creer 如 果 右 表 中 不 存在 对 应 行 ， 则 填充 NULL 

左 半 连接 左 半 连接 仅 生成 左 表 中 的 行 ， 当 且 仅 当 这 些 行 位 于 右 表 中 


右 外 连接 生成 右 表 中 的 所 有 行 ， 以 及 左 、 右 表 中 的 公共 行 〈 内 连接 ) 。 


MM 如 果 左 表 中 不 存在 对 应 行 ， 则 填充 NULL 
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下 面 通过 一 些 示例 数据 集 考 查 不 同 连接 类 型 的 工作 方式 。 


scala» val statesPopulationDF = spark.read.option("header", 
"true").option("inferschema", "true").option("sep", 
",").csv("statesPopulation.csv") 

statesPopulationDF: org.apache.spark.sql.DataFrame = [State: string, 
Year:int ... 1 more field] 

scala» val statesTaxRatesDF = spark.read.option("header", 
"true").option("inferschema", "true").option("sep", 
",").csv("statesTaxRates.csv") 

statesTaxRatesDF: org.apache.spark.sql.DataFrame = [State: string, 
TaxRate: 

double] 

scala> statesPopulationDF.count 

res21: Long = 357 

scala> statesTaxRatesDF.count 

res32: Long = 47 

%sql 

statesPopulationDF.createOrReplaceTempView ("statesPopulationDF") 
statesTaxRatesDF.createOrReplaceTempView ("statesTaxRatesDF") 


6.7.5 内 部 连接 


当 State 在 两 个 数据 集中 均 为 非 NULL 时 ， 内 部 连接 生成 statesPopulationDF 和 
statesTaxRatesDF 中 的 数据 行 ， 如 图 6.7 所 示 。 


图 6.7 


下 列 代码 展示 了 如 何 通 过 State 列 连接 两 个 数据 集 。 


val joinDF = statesPopulationDF.join(statesTaxRatesDF, 
statesPopulationDF("State") === statesTaxRatesDF ("State"), "inner") 
$sgl 

val joinDF = spark.sql ("SELECT * FROM statesPopulationDF INNER JOIN 
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statesTaxRatesDF ON statesPopulationDF.State = statesTaxRatesDF.State") 
scala» joinDF.count 

res22: Long = 329 
scala» joinDF.show 

二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4----- 十 

| State|Year|Population| State|TaxRate| 


| Alabama|2010| 4785492| Alabama| 4.0| 

| Arizonal2010| 6408312| Arizona| 5.6| 

| Arkansas|2010| 2921995| Arkansas| 6.5| 

| California|2010| 37332685| California| 7.5| 

| Colorado|2010| 5048644| Colorado| 2.9| 

| Connecticut|2010| 3579899| Connecticut| 6.35| 


另外 ， 还 可 在 joinDF 上 运行 explain0， 进 而 查看 当前 执行 计划 ， 如 下 所 示 : 


Scala» joinDF.explain 

== Physical Plan -- 

*BroadcastHashJoin [Statef570], [State#577] , Inner, BuildRight 

:- *Project [State#570, Year#571, Population#572] 

: +- *Filter isnotnull (State#570) 

: +- *FileScan csv [State#570, Year#571, Population#572] Batohed: false, 
Format: CSV, Location: InMemoryFileIndex[file:/Users/salla/spark-2.1.0- 
binhadoop2.7/ 

statesPopulation.csv], PartitionFilters: [], PushedFilters: 

[IsNotNull(State)], ReadSchema: 

Struct«State:string,Year:int,Population:int» 

+- BroadcastExchange HashedRelationBroadcastMode (List(input[0, string, 
true])) 

+- *Project [State#577, TaxRate#578] 

+- *Filter isnotnull (State#577) 

+- *FileScan csv [State#577,TaxRate#578] Batched: false, Format: CSV, 
Location: InMemoryFileIndex[file:/Users/salla/spark-2.1.0-binhadoop2.7/ 

statesTaxRates.csv], PartitionFilters: [], 
PushedFilters: [IsNotNull (State)], ReadSchema: 
struct<State:string, TaxRate:double> 


6.7.6 左 外 连接 


左 外 连接 生成 statesPopulationDF 中 的 全部 行 , 包括 statesPopulationDF 和 


statesTaxRatesDF 中 的 公共 行 ， 如 图 6.8 所 示 。 


第 6 章 Apache Spark 批 处 理 分 析 ・203・ 


左 外 连接 


左 表 右 表 


图 6.8 
下 列 代 码 通过 State 列 连接 两 个 数据 集 。 


val joinDF = statesPopulationDF.join(statesTaxRatesDF, 
statesPopulationDF ("State") === statesTaxRatesDF ("State"), "leftouter") 
ゃ sq1 

val joinDF = spark.sql ("SELECT * FROM statesPopulationDF LEFT OUTER JOIN 
statesTaxRatesDF ON statesPopulationDF.State = statesTaxRatesDF.State") 
Scala» joinDF.count 

res22: Long - 357 

Scala» joinDF.show (5) 

4---------- 4----4---------- 4---------- ーー 
| State|Year|Population| State|TaxRate| 


| Alabama|2010| 4785492| Alabama| 4.0| 

| Alaska|2010| 714031| null| nulll 

| Arizona|2010| 6408312| Arizona| 5.6] 

| Arkansas|2010| 2921995| Arkansas| 6.5| 
|California|2010| 37332685|California| 7.5] 
4---------- *----4---------- 4---------- 4------- * 


6.7.7 右 外 達 接 


右 外 连接 生成 statesTaxRatesDF 中 的 全部 行 , 包括 statesPopulationDF 和 
statesTaxRatesDF 中 的 公共 行 , 如 図 6.9 所 示 。 


右 外 连接 


左 表 右 表 


图 6.9 
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下 列 代码 展示 了 通过 State 列 连接 的 两 个 数据 集 。 


val joinDF = statesPopulationDF.join(statesTaxRatesDF, 
statesPopulationDF("State") === statesTaxRatesDF ("State"), "rightouter") 
$sql 

val joinDF = spark.sql ("SELECT * FROM statesPopulationDF RIGHT OUTER JOIN 
statesTaxRatesDF ON statesPopulationDF.State = statesTaxRatesDF.State") 
scala> joinDF.count 

res22: Long = 323 

scala> joinDF.show 


+-------------------- +----+---------- +-------------------- +----- + 
| State|Year|Population| State|TaxRate| 
q-------------------- 4q----—4---------- 4-------------------- 4----- 十 


Colorado|2011| 5118360| Colorado| 2.91 
Colorado|2010| 5048644| Colorado| 2.9| 
null|null| null|Connecticut| 6.35| 
Florida|2016| 20612439| Florida| 6.0| 
Florida|2015| 20244914| Florida| 6.0| 
Florida|2014| 19888741| Florida| 6.0| 


6.7.8 全 外 连接 


全 外 连接 生成 statesPopulationDF 和 statesTaxRatesDF 中 的 所 有 行 ， 如 图 6.10 所 示 。 


全 外 连接 


图 6.10 
下 列 代码 展示 了 通过 State 列 连接 两 个 数据 集 。 


val joinDF = statesPopulationDF.join(statesTaxRatesDF, 
statesPopulationDF ("State") === statesTaxRatesDF ("State"), "fullouter") 
$sql 

val joinDF = spark.sql("SELECT * FROM statesPopulationDF FULL OUTER JOIN 
statesTaxRatesDF ON statesPopulationDF.State — statesTaxRatesDF.State") 
scala» joinDF.count 

res22: Long - 351 
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scala» joinDF.show 


4------------------ 二 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 4-------------------- 4------- * 
| State|Year|Population| State|TaxRate| 
4------------------ 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 4-------------------- 4------- * 


| Delaware|2010| 899816| null| null| 

| Delaware|2011| 907924| null| null| 

| West Virginia|2010| 1854230| West Virginial 6.0| 
| West Virginia|2011| 1854972| West Virginial 6.0| 
| Missouri|2010| 5996118| Missouri| 4.225| 

| null|null| null| Connecticut| 6.35| 


67.9 ARIE 


当 且 仅 当 statesTaxRatesDF 中 不 存在 对 应 行 时 ， 左 反 连 接 仅 生 成 statesPopulationDF 
中 的 数据 行 ， 如 图 6.11 所 示 。 


图 6.11 


下 列 代码 展示 了 通过 State 列 连接 两 个 数据 集 。 


val joinDF = statesPopulationDF.join(statesTaxRatesDF, 
statesPopulationDF ("State") === statesTaxRatesDF("State"), "leftanti") 
$sql 

val joinDF = spark.sql("SELECT * FROM statesPopulationDF LEFT ANTI JOIN 
statesTaxRatesDF ON statesPopulationDF.State — statesTaxRatesDF.State") 
scala» joinDF.count 
res22: Long - 28 

scala» joinDF.show(5) 

エーーーーーーーー ーーーー ャ ーーーーーーーー ニ ーー 十 

| State|Year|Population| 

ミー ニーーー ニ ーーー dec + 

| Alaska|2010| 714031| 

|Delaware|2010| 899816| 

| Montana|2010| 990641| 

| Oregon|2010| 3838048] 
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| Alaska|2011| 722713| 
4-------- 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 + 


6.7.10” 左 半 连 接 


仅 当 statesTaxRatesDF 中 存在 对 应 行 时 ， 左 半 连 接 仅 生 成 statesPopulationDF 中 的 数 
据 行 ， 如 图 6.12 所 示 。 


图 6.12 


下 列 代码 展示 了 通过 State 列 连接 两 个 数据 集 。 


val joinDF = statesPopulationDF.join(statesTaxRatesDF, 


statesPopulationDF ("State") === statesTaxRatesDF("State"), "leftsemi") 
sq1 


val joinDF = spark. sq1 ("SELECT * FROM statesPopulationDF LEFT SEMI JOIN 
statesTaxRatesDF ON statesPopulationDF.State = statesTaxRatesDF.State") 


Scala» joinDF.count 


res22: Long - 322 
Scala» joinDF.show(5) 


---------- +----+---------- + 
| State|Year|Population| 
+---------- +----+---------- + 


| Alabama|2010| 47854921 

| Arizona|2010| 6408312| 

| Arkansas|2010| 29219951 
|California|2010| 373326851 
| Colorado|2010| 5048644| 


6.7.41 交叉 连接 


交叉 连接 匹配 堪 、 右 数据 集中 的 每 一 行 数据 ， 进 而 生成 笛 卡 儿 又 积 ， 如 图 6.13 所 示 。 
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图 6.13 


下 列 代码 通过 State 列 连接 两 个 数据 集 。 


Scala» val joinDF-statesPopulationDF.crossJoin(statesTaxRatesDF) 
joinDF: org.apache.spark.sql.DataFrame = [State: string, Year: int ... 3 
more fields] 

%sql 

val joinDF = spark.sql ("SELECT * FROM statesPopulationDF CROSS JOIN 
statesTaxRatesDF") 

scala> joinDF.count 

res46: Long = 16450 

scala> joinDF.show(10) 


4------- ーーーー キ ーーーーーー ニ ーー 一 4----------- 4------- * 
State|Year|Population| State|TaxRate| 
4------- R----4---------- 4----------- 4------- * 


Alabama|2010| 4785492| Alabama| 4.0| 
Alabama|2010| 4785492| Arizona| 5.6| 
Alabama|2010| 4785492| Arkansas| 6.5| 
Alabama|2010| 4785492| California| 7.5| 
Alabama|2010| 4785492| Colorado| 2.9| 
Alabama|2010| 4785492|Connecticut| 6.35| 
Alabama|2010| 4785492| Florida| 6.0| 
Alabama|2010| 4785492| Georgial 4.0| 
Alabama|2010| 4785492| Hawaii| 4.0| 
Alabama|2010| 4785492| Idaho| 6.0| 


Qi. 
此 外 ， 还 可 使 用 包含 交叉 joinType 的 连接 ， 而 非 调用 交叉 连接 API: statesPopulationDF. 
join(statesTaxRatesDF ,statesPopulationDF("State").isNotNull, "cross").count。 


6.7.12 ”连接 的 操作 性 能 
所 选择 的 连接 类 型 将 直接 影响 到 连接 的 性 能 ， 其 原因 在 于 ， 连 接 操作 需要 在 执行 期 
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间 混 洗 数 据 。 因 出 


上 ， 不 同 的 连接 类 型 ， 甚 至 是 连接 顺序 ， 都 应 予以 重视 。angle 编写 连接 


代码 时 ， 表 6.10 列 出 了 需要 注意 的 事项 。 


连接 类 型 
内 连接 


交叉 连接 


表 6.10 


性 能 提示 
内 连接 要 求 左 表 和 右 表 具有 相同 的 列 。 如 果 左 侧 或 右 侧 包含 键 的 一 个 或 多 个 副 
本 ， 连 接 会 迅速 膨胀 为 某 种 笛 卡 儿 连 接 ， 这 将 占用 较 长 的 计算 时 间 
交叉 连接 利用 右 表 中 的 各 行 匹配 左 表 中 的 每 一 行 , 并 生成 馆 卡 儿 叉 积 。 需 要 注意 
的 是 ,由 于 交叉 连接 是 性 能 最 差 的 连接 方式 ,因而 仅 在 某 些 特殊 用 例 中 加 以 使 用 


外 连接 、 全 连接 和 
全 外 连接 


左 反 连接 


左 连 接 、 左 外 连接 


左 半 连接 


右 连接 、 右 外 连接 


全 外 连接 将 生成 连接 子 句 的 左 、 右 两 侧 表 中 的 全 部 行 〈 包 括 匹配 和 不 匹配 的 内 
容 ) 。 当 需要 保留 两 个 表 中 的 全 部 行 时 ， 可 采用 这 一 连接 方式 。 若 某 一 个 表 中 存 
在 匹配 ， 全 外 连接 将 返回 所 有 行 。 如 果 表 中 包含 了 较 少 的 公共 行 ， 最 终结 果 将 较 
为 庞大 ， 且 性 能 也 会 受到 一 定 程度 的 影响 

左 反 连接 可 描述 为 : 仅 生 成 未 出 现 于 右 表 且 来 自 左 表 中 的 行 。 当 希望 保留 左 表 中 
的 行 ， 同 时 这 些 行 未 出 现 于 右 表 中 时 ， 即 可 采用 这 种 方案 。 该 方案 具有 较 好 的 性 
能 一 一 仅 需 整体 考查 一 个 表 ， 而 另 一 个 表 仅 检查 连接 条 件 

除了 两 个 表 公 共 部 分 (内 连接 ) 之 外 ， 左 外 连接 还 生成 左 表 中 的 全 部 行 。 如 果 公 
共 行 较 少 ， 则 最 终结 果 相 对 庞大 ， 因 而 会 对 性 能 产生 影响 

左 半 连 接 仅 生成 左 表 中 的 行 , 当 且 仅 当 这 些 行 位 于 右 表 中 。 这 与 之 前 讨论 的 左 反 
连接 刚好 相反 ， 且 不 包含 右 表 中 的 数值 。 由 于 仅 考 查 一 个 表 ， 且 另 一 个 表 仅 执行 
条 件 连接 检查 ， 因 而 左 半 连 接 具 有 较 好 的 性 能 

右 外 连接 生成 右 表 中 的 全 部 行 ， 以 及 两 个 表 中 的 公共 行 〈 内 连接 ) 。 使 用 该 连接 
将 得 到 右 表 中 的 全 部 行 ， 以 及 左 、 右 表 中 的 公共 行 。 如 果 左 表 中 不 存在 对 应 行 
则 填充 NULL。 当 采用 右 外 连接 时 ， 其 性 能 类 似 于 左 外 连接 


68 本 章 小 结 


本 章 讨论 了 与 DataFrame 相关 的 基本 内 容 , 以 及 SparkSQL 如 何在 DataFrame 之 上 提 
供 了 相应 的 SQL 接口 。DataFrame 的 强大 之 处 主要 体现 在 : 执行 时 间 与 基于 RDD 的 计算 
相 比 明显 降低 。 除 此 之 外 ， 该 层 还 包含 了 简单 的 SQL 接口 ， 其 功能 也 得 到 了 进一步 的 提 
升 。 另 外 ， 本 章 还 考查 了 各 种 API (进而 可 创建 、 操 控 DataFrame) ， 以 及 聚合 的 高 级 特 
性 ， 包 括 groupBy. Window, rollup 和 cube。 最 后 ， 我 们 还 学 习 了 与 连接 数据 集 相 关 的 
概念 以 及 各 种 连接 类 型 ， 例 如 内 连接 、 外 连接 、 交 叉 连 接 等 。 


第 7 章 将 步 入 本 书 最 令 人 激动 的 部 分 


实时 数据 处 理 和 分 析 。 


第 7 章 Apache Spark 实时 数据 分 析 


本 章 将 介绍 Apache Spark 的 流 式 处 理 模 型 ， 以 及 如 何 构建 流 式 实时 分 析 应 用 程序 。 
本 章 将 着 重 讨论 Spark Streaming， 并 展示 基于 Spark API 的 数据 流 处 理 方式 。 

特别 地 ， 读 者 将 学 习 如 何 处 理 Twitter 中 的 消息 ， 并 通过 多 种 方式 处 理 实时 数据 流 。 
本 章 主要 涉及 以 下 主题 : 


ロロ ロロ ロロ ロ 


数据 流 简介 。 

Spark Streaming, 

离散 化 数据 流 。 

有 状态 和 无 状态 转换 。 

检查 点 技术 。 

其他 流 式 平台 操作 ( 例 如 Apache Kafka) 。 
Structured Streaming. 


7.1 数 据 流 


在 现代 社会 ， 越 来 越 多 的 人 通过 互联 网 相互 联系 。 随 着 智能 手机 的 出 现 ， 这 一 趋势 
变 得 越发 明显 ， 今 天 ， 智 能 手机 已 经 成 为 我 们 生活 的 一 部 分 ， 例 如 浏览 社交 媒体 、 在 线 
订餐 、 在 线 出 租车 服务 等 ， 我 们 发 现 自己 比 以 往 任何 时 候 都 更 加 依赖 于 互联 网 。 未 来 ， 
这 种 依赖 性 只 会 变 得 更 加 强烈 。 随 着 这 一 变化 ， 在 数据 聚合 方面 ， 开 发 任务 也 变 得 更 加 
繁重 。 随 着 互联 网 的 攻 勃 发 展 ， 数 据 处 理 的 本 质 发 生 了 变化 。 任 何 时 候 ， 当 App 或 服务 


通过 手机 过 


行 访问 时 ， 即 会 产生 实时 数据 处 理 。 鉴 于 应 用 程序 质量 的 重要 性 ， 公 司 被 迫 


改进 数据 处 理 过 程 。 其 间 ， 范 式 也 随 之 发 生 了 变化 。 目 前 正在 研究 和 使 用 的 一 种 范式 是 ， 


在 高 层 基 而 


设施 上 使 用 高 可 伸缩 、 实 时 《或 尽 可 能 接近 实时 ) 的 处 理 引 擎 。 这 一 类 引擎 


应 具备 快速 的 特性 ， 且 能 够 适应 各 种 变化 和 故障 。 基 本 上 讲 ， 数 据 处 理 过 程 应 尽 可 能 接 
近 实 时 状态 且 不 受 干 扰 。 

大 多 数 处 于 监测 状态 下 的 系统 ， 均 会 以 不 确定 但 连续 的 事件 流 的 形式 生成 大 量 数据 。 
与 其 他 数据 处 理 系统 一 样 ， 挑 战 来 自 采 集 、 存 储 和 数据 处 理 等 方面 。 实 时 需求 使 得 问题 
变 得 越 加 复杂 。 当 采集 、 处 理 这 一 类 不 确定 的 数据 流 时 ， 需 要 使 用 到 一 种 具有 高 可 伸缩 
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性 的 体系 结构 以 及 系统 迭代 ， 例 如 Flink, AMQ, Storm 和 Spark。 更 新 、 更 现代 的 系统 
具有 高 效 和 灵活 等 特征 ， 这 也 意味 着 ， 与 以 往 相 比 ， 公 司 能 够 更 容易 、 更 高 效 地 实现 其 
自身 的 目标 。 新 技术 的 发 展 也 使 得 我 们 能 够 使 用 各 种 来 源 的 数据 ， 并 对 其 进行 处 理 。 所 
有 这 些 都 具有 最 小 的 延迟 。 

当 客户 通过 智能 手机 订购 披萨 时 ， 可 以 通过 信用 卡 支付 并 以 快递 方式 送 达 。 另 外 ， 
一 些 公交 系统 支持 在 地 图 上 实时 查看 公交 车 辆 的 行驶 状态 。 其 他 例子 还 包括 ， 我 们 可 使 
用 手机 访问 附近 的 星巴克 咖啡 店 ， 并 购买 一 杯 咖啡 。 

通过 查看 预计 的 到 达 时 间 ， 我 们 可 对 到 达 机 场 的 路 线 进行 规划 。 如 果 公 交 车 短 时 间 
内 无 法 到 达 ， 这 可 能 会 对 飞行 计划 造成 不 利 的 影响 。 对 此 ， 我 们 可 以 改 乘 出 租车 。 万 一 
交通 堵塞 ， 以 致 无 法 准时 到 达 机 场 ， 我 们 可 重新 预订 或 取消 航班 。 

为 了 进一步 理解 数据 的 实时 处 理 方 式 ， 我 们 必须 首先 了 解 流 式 架 构 的 基础 知识 。 对 
于 实时 流 式 架构 来 说 ， 以 高 速率 收集 大 量 数据 是 非常 重要 的 ， 同 时 还 应 确保 数据 被 正确 
地 处 理 。 

图 7.1 显示 了 通用 的 流 式 处 理 系统 。 其 中 , 生产 者 将 事件 置 入 消息 系统 中 ， 而 消费 者 
从 消息 系统 中 读 取 数据 。 


消息 传输 系统 


使 用 首 个 元 素 后 的 位 置 


图 7.1 


实时 流 式 数据 可 根据 下 列 3 个 范式 进行 处 理 : 
口 “至 少 一 次 ”处 理 。 
口 “最 二 处 理 。 
O “ 仅 一 次 ”处 理 。 
其 中 ，“ 仅 一 次 ”处 理 是 最 为 理想 的 解决 方案 ， 但 在 各 种 场合 下 ， 这 一 处 理 方式 一 般 
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难以 实现 。 对 于 这 一 类 相对 复杂 的 标准 实现 ， 我 们 需要 对 其 属性 做 出 一 定 程度 上 的 让 步 。 


7.1.1 “至 少 一 次 ”处 理 


在 “至 少 一 次 ”处 理 范式 中 ， 最 后 接收 的 事件 位 置 在 该 事件 被 处 理 后 被 保存 。 在 发 


也 体现 了 “至 少 一 次 ”处 理 的 具体 含义 。 


生 故 障 时 ， 使 用 者 仍然 能 够 读 取 和 重新 处 理 旧 事件 。 但 是 ， 此 处 不 能 假定 接收 到 的 事件 
从 未 处 理 或 部 分 处 理 过 ， 因 此 ， 再 次 调用 前 一 个 事件 之 后 ， 可 能 会 出 现 重复 的 结果 。 这 


对 于 任何 应 用 程序 来 说 ， 该 范式 均 较 为 理想 ， 并 可 用 于 更 新 计时 器 或 计量 器 以 显示 
当前 数值 。 然 而 ， 累 加 、 计 数 器 或 其 他 依赖 于 聚合 类 型 准确 性 的 操作 却 不 适用 于 上 述 方 


案 ， 其 主要 原因 在 于 ， 重 复 事件 会 导致 不 正确 的 结果 。 
相应 地 ， 序 列 执行 下 列 操作 : 
ロ ”保存 结果 。 
ü ”保存 游标 。 
图 7.2 显示 了 “至 少 一 次 ”处 理 范式 的 操作 流程 。 


“至 少 一 次 ”处 理 
逐一 处 理事 件 


消费 者 


保存 结果 


+ 
保存 偏 移 量 


消费 者 


保存 结果 


7.1.2 “最 多 一 次 ”处 理 


在 该 范式 中 ， 最 近 一 次 事件 的 位 置 在 其 处 理 之 前 予以 保存 。 如 出 现 故 障 或 消费 者 重 
新 启动 ， 旧 事件 并 不 会 被 再 次 读 取 。 但 是 ， 该 过 程 可 能 存在 事件 丢失 的 可 能 性 


故障 y 


保存 偏 移 量 


我 们 
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不 能 假定 所 有 接收 到 的 事件 都 经 过 了 处 理 ， 因 而 无 法 再 次 检索 事件 ， 这 也 体现 了 该 范式 
的 含义 : 事件 要 么 不 被 处 理 ， 要 么 最 多 处 理 一 次 。 对 于 需要 被 更 新 以 显示 当前 值 的 计时 
器 或 计量 器 来 说 ， 这 是 一 种 较为 理想 的 方案 。 此 外 ， 如 果 准 确 性 并 非 必需 ， 或 者 需要 使 
用 到 全 部 事件 ， 那 么 ， 聚 合 操作 《例如 累计 和 或 计数 器 ) 均 可 以 正常 工作 。 注 意 , 任 何 
丢失 的 事件 将 导致 数据 丢失 或 不 正确 的 结果 。 

相应 地 ， 序 列 执行 下 列 操作 : 

U ”保存 结果 。 

ü ”保存 游标 。 

若 存 在 故障 且 消 费 者 重新 启动 ， 每 个 事件 将 会 生成 一 个 游标 (假设 事件 在 故障 出 现 
之 前 均 已 被 处 理 ) ， 但 事件 最 终 可 能 会 丢失 ， 如 图 7.3 所 示 。 


“最 多 一 次 ”处 理 
逐一 处 理事 件 


消费 者 
保存 偏 移 量 
um 


保存 结果 


消费 者 


7.4.3 “ 仅 一 次 ”处 理 


该 范式 与 “至 少 一 次 ”处 理 方式 有 些 类 似 ， 仅 在 最 近 一 次 事件 被 处 理 后 对 其 进行 保 
存 。 对 于 故障 或 消费 者 重启 这 一 类 情况 ， 旧 事件 可 被 重新 读 取 和 处 理 。 然 而 ， 由 于 无 法 
假设 所 有 事件 要 么 没有 被 处 理 ， 要 么 只 被 部 分 处 理 ， 因 而 可 能 会 存在 潜在 的 重复 事件 。 
与 “至 少 一 次 ”处 理 方式 不 同 ， 重 复 事件 将 被 丢弃 且 不 会 被 处 理 ， 最 终 会 形成 “ 仅 一 次 ” 
处 理 。 

相应 地 ， 序 列 执行 下 列 操作 : 

O ”保存 结果 。 
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Q 保存 游标 。 


“ 仅 一 次 ”处 理 
逐一 处 理事 件 


回国 回 


事件 被 逐一 处 理 


T1 TO 


xy L——95 L5] [4] 


AA. “ 仅 一 次 ”处 理 方案 如 何 处 理 重复 问题 ? 其 中 涉及 以 下 处 理 过 程 : 


Q X^; Cidempotent) 更新 。 
ü 事务 更 新 。 


图 7.4 


消费 者 


保存 结果 


保存 偏 移 量 


消费 者 


保存 结果 


| du y 


保存 偏 移 量 


图 7.4 显示 了 消费 者 在 故障 后 重启 情形 。 其间, 事件 均 已 被 处 理 , 但 游标 尚未 被 保存 。 


Spark Streaming 在 Spark 2.0 及 其 更 高 版 本 中 实现 了 结构 化 的 流 式 处 理 ， 并 支持 “ 仅 
一 次 ”处 理 方案 。 本 章 稍 后 将 对 结构 化 的 流 式 处 理 加 以 讨论 。 
在 窜 等 更 新 中 ， 最 终结 果 根 据 所 生成 的 唯一 键 或 ID 加 以 保存 。 对 于 重复 情形 ， 生 成 
的 键 或 ID 已 处 于 当前 结果 中 【例如 数据 库 ) ， 因 而 消费 者 可 移 除 重复 内 容 ， 且 无 须 对 结 
果 进 行 更 新 。 但 是 ， 这 一 过 程 可 能 非常 复杂 一 一 针对 每 个 事件 生成 唯一 的 键 并 非 是 一 项 
简单 任务 ， 这 需要 在 消费 者 一 端 执行 额外 的 处 理 ， 除 此 之 外 ， 对 于 最 终结 果 和 游标 ， 数 


据 库 可 处 于 独立 状态 。 


在 事务 更 新 中 ， 相 关 结 果 在 开始 、 提 交 事 务 的 批 次 中 被 保存 。 因 此 ， 在 提交 事件 中 ， 
该 事件 将 被 成 功 处 理 。 重 复 事件 可 在 不 更 新 当前 结果 的 情况 下 予以 删除 。 但 是 ， 与 肾 等 
更 新 相 比 ， 其 处 理 过 程 将 会 更 加 复杂 一 当前， 需要 存储 事务 数据 。 另 外 ， 对 于 最 终结 
果 和 游标 ， 数 据 库 须 保持 不 变 ， 这 也 可 视 为 该 方案 的 另 一 个 缺点 。 


O 注意， 


对 于 “至 少 一 次 ”处 理 和 “最 多 一 次 ”处 理 方案 的 使 用 ， 对 应 策略 应 在 考查 了 所 构建 的 


用 例 之 后 再 做 决定 ， 进 而 保持 合理 的 准确 性 和 性 能 要 求 。 
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7.2 Spark Streaming 


Spark Streaming 并 不 是 首先 提出 的 一 种 流 式 体系 结构 。 随 着 时 间 的 推移 ， 业 界 已 涌现 
出 多 种 技术 方案 ， 进 而 解决 各 种 实时 处 理 需 求 。Twitter Storm 则 是 首 个 较为 流行 的 流 式 处 
理 技术 ， 并 应 用 于 诸多 业务 中 。Spark 涵盖 了 流 式 处 理 库 ， 当 前 已 经 成 为 一 种 应 用 广泛 的 技 
术 ， 其 原因 在 于 : 与 其 他 技术 相 比 ，Spark Streaming 具备 诸多 优势 ， 最 重要 的 是 它 在 核心 AP 
中 集成 了 Spark Streaming API。 不 似 如 此 , Spark Streaming 还 进一步 与 Spark ML. Spark SQL 
以 及 GraphX 实现 了 整合 。 基 于 此 ，Spark 是 一 种 功能 强大 且 兼 具 多 样 性 的 流 式 处 理 技术 。 

关于 Spark Streaming Flink、Heron (Twitter Storm 的 后 继 者 ) 和 Samza， 读 者 可 访问 
https:// spark.apache.org/docs/2.1.0/ streaming-programming-guide.html 以 了 解 更 多 信息 。 例 
如 ， 它 们 能 够 在 最 小 化 延迟 的 同时 处 理事 件 。 然 而 ，Spark Streaming 可 采用 微 批 处 理 方 
式 处 理 数据 。 其 中 ， 微 批 处 理 的 最 小 尺寸 是 500 毫秒 。 
O 注意， 

在 某 些 场合 下 ，Apache Apex, Flink, Samza, Heron, Gearpump 以 及 其 他 新 技术 均 构成 
了 Spark Streaming 的 竞争 对 手 。 需 要 注意 的 是 ， 当 采用 逐个 事件 这 一 类 处 理 方式 时 ，Spark 
Streaming 并 不 适用 

Spark Streaming 的 工作 方式 是 按照 用 户 配置 的 特定 时 间 间 隔 创建 一 批 事件 ， 然 后 在 
另 一 个 指定 的 时 间 间 隔 交 付 并 进行 处 理 。 

Spark Streaming 支持 多 个 输入 源 ， 从 而 将 最 终结 果 写 入 多 个 接收 位 置 处 , 如 图 7.5 所 示 。 


Spark 
HDFS/S3 | Streaming | Databases 


Kinesis Dashboards 
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类 似 于 SparkContext, Spark Streaming 设置 了 一 个 StreamingContext， 即 流 数据 的 主要 入 
口 点 。StreamingContext 依赖 于 SparkContext: 同時 , SparkContext 实际 上 可 直接 用 于 流 式 任 
务 中 。 StreamingContext 与 SparkContext 十 分 相似 , 二 者 之 间 唯 一 的 差别 在 于 , StreamingContext 


需要 程序 指定 批 处 理 的 时 间 间 隔 /持续 时 间 ， 从 分 钟 到 毫秒 不 等 ， 如 图 7.6 所 示 。 


Spark 
Streaming 


O 注意 : 


SparkContext 是 主要 的 入 口 点 。StreamingContext 复 用 了 SparkContext 中 的 一 部 分 逻 


H ( 任务 调度 和 资源 管理 ) 。 


7.2.1 StreamingContext 


作为 流 数据 的 主要 入 口 点 ，StreamingContext 处 理 流 式 应 用 程序 的 相关 操作 ， 包 括 


RDD 的 检查 点 和 转换 。 


7.22 创建 StreamingContext 


StreamingContext 可 通过 下 列 方式 创建 : 
O 利用 現有 的 SparkContext 创建 StreamingContext， 如 下 所 示 : 


StreamingContext (sparkContext: SparkContext, batchDuration: 
Duration) 
Scala» val ssc = new StreamingContext (sc, Seconds (10)) 


口 通过 提供 所 需 配 置 创建 StreamingContext， 如 下 所 示 : 


StreamingContext (conf: SparkConf, batchDuration: Duration) 
scala> val conf = 


newSparkConf () .setMaster ("local[1]").setAppName ("TextStreams") 

scala» val ssc = new StreamingContext (conf, Seconds (10) ) 

O getOrCreate 函数 用 于 从 上 一 个 检查 点 数据 片段 重新 创建 一 个 StreamingContext, 
或 者 创建 一 个 新 的 StreamingContext。 如 果 数 据 不 存在 ， 那 么 ，StreamingContext 
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则 通过 调用 所 提供 的 creatingFunc 创建 ， 如 下 所 示 : 


def getOrCreate( 

checkpointPath: String, 

creatingFunc: () -» StreamingContext, 

hadoopConf: Configuration = SparkHadoopUtil.get.conf, 
createOnError: Boolean - false 

): StreamingContext 


7.2.3 启用 StreamingContext 


通过 执行 StreamingContext 所 定义 的 数据 流 ， 即 可 启用 流 式 应 用 程序 ， 如 下 所 示 : 


def start(): Unit 
Scala» ssc.start() 


7.24 终止 StreamingContext 


当 StreamingContext 终止 时 ， 所 有 的 处 理 过 程 也 将 结束 。 我 们 需要 创建 一 个 新 的 
StreamingContext， 对 此 ， 需 要 调用 start0 重 启 应 用 程序 。 相 应 地 ， 存 在 两 种 有 用 的 API 
可 终止 流 式 处 理 ， 具 体 如 下 : 

口 通过 下 列 方式 立即 终止 数据 流 的 执行 (不 会 等 待 所 接收 的 数据 被 处 理 〉: 

def stop(stopSparkContext: Boolean) 

scala» ssc.stop(false) 


ü ”停止 执行 数据 流 ， 使 用 以 下 选项 可 处 理 接收 到 的 数据 : 


def stop(stopSparkContext: Boolean, stopGracefully: Boolean) 
scala» ssc.stop(true, true) 


输入 数据 流 包 含 多 种 类 型 ， 且 均 需 要 创建 StreamingContext。 

1. receiverStream 

这 里 ， 可 使 用 任何 用 户 实现 的 接收 器 创建 输入 流 ， 并 可 对 此 自行 定义 。 读 者 可 访问 
http://spark.apache.org/docs/latest/streaming-customreceivers.html 以 了 解 更 多 信息 。 下 列 代 
码 显示 了 部 分 内 容 : 


API declaration for receiverStream: 
def receiverStream[T]: ClassTag] (receiver: Receiver[T]): 
ReceiverInputDStream[T] 
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2. socketTextStream 


socketTextStream 使用 TCP 源 hostname:port 创建 输入 流 。 数 据 通过 TCP 套 接 字 接 收 ， 
所 接收 的 字 节 被 解释 为 UTF8， 并 编码 为 \n 分 隔 符 行 ， 如 下 所 示 : 
def socketTextStream(hostname: String, port: Int, 


storageLevel: StorageLevel = StorageLevel.MEMORY AND DISK SER 2): 
ReceiverInputDStream[String] 


3. rawSocketStream 


rawSocketStream 使 用 网 络 源 hostname:port 创建 输入 流 ， 这 可 视 为 接收 数据 时 的 一 种 
最 为 高 效 的 方法 ， 如 下 所 示 : 
def rawSocketStream[T: ClassTag] (hostname: String, port: Int, 


storageLevel: StorageLevel = StorageLevel.MEMORY AND DISK SER 2): 
ReceiverInputDStream[T] 


7.3 fileStream 


fileStream 将 创建 一 个 输入 流 ， 并 监测 与 Hadoop 兼容 的 文件 系统 ， 同 时 ， 还 将 利用 
给 定 的 键 - 值 类 型 和 输入 格式 读 取 新 文件 。 此 处 ， 以 “.” 开 始 的 文件 名 将 被 忽略 。 当 调用 
一 个 原子 文件 重 命名 函数 时 ， 以 “.” 开 始 的 文件 名 将 被 重 命名 为 一 个 可 用 的 文件 名 ， 并 
可 被 fileStream 所 选用 ， 进 而 对 其 中 的 内 容 进 行 处 理 ， 如 下 所 示 : 

def fileStream[K: ClassTag, V: ClassTag, F <: NewInputFormat[K, V]: 

ClassTag] (directory: String): InputDStream[(K, V)] 


7.3.1 textFileStream 
textFileStream 命令 创建 输入 流 , 并 检测 与 Hadoop 兼容 的 文件 系统 , 其 文件 读 取 方式 


可 描述 为 : 将 基于 键 的 文本 文件 读 取 为 Longwritable; 将 数值 读 取 为 text， 将 输入 格式 读 
取 为 TextInputFormat。 其 中 ， 任 何以 “.” 开 始 的 文件 名 均 被 忽略 ， 如 下 所 示 : 


def textFileStream(directory: String): Dstream[String] 


7.3.2 binaryRecordsStream 


采用 binaryRecordsStream， 可 创建 一 个 监测 与 Hadoop 兼容 的 文件 系统 的 输入 流 。 其 


・218・ Hadoop 大 数据 分 析 实 战 


中 ， 任 何以 “.” 开 始 的 文件 名 均 被 忽略 ， 如 下 所 示 : 


def binaryRecordsStream(directory: String, recordLength: Int): 


Dstream[Array[Byte] ] 


7.3.3 queueStream 


使 用 queueStream， 将 从 一 个 RDD 队列 中 创建 一 个 输入 流 。 在 每 个 批 次 中 ， 将 处 理 
由 队列 返回 的 一 个 或 全 部 RDD, 如 下 所 示 : 


def queueStream[T: ClassTag] (queue: Queue [RDD [T] ] oneAtATime: Boolean = 
true): InputDStream[T] 


1. textFileStream 示例 


该 示例 是 一 个 基于 textFileStream 方法 的 Spark Streaming. StreamingContext 从 Spark 
Shell 的 SparkContext (sc) 中 进行 创建 ， 时 间 间 隔 为 10 秒 。textFileStream 启动 后 ， 将 监视 
名 为 streamfiles 的 目录 ， 并 处 理 该 目录 中 的 任何 新 文件 。 在 当前 示例 中 ， 将 输出 RDD 中 
的 元素 数 量 , 如 下 所 示 : 

Scala» import org.apache.spark. 

scala» import org.apache.spark.streaming. _ 

Scala» val ssc = new StreamingContext (sc, Seconds (10) ) 

scala» val filestream - ssc.textFileStream("streamfiles") 


Scala» filestream.foreachRDD(rdd => (println(rdd.count())]) 
Scala» ssc.start 


2. twitterStream 示例 


该 示例 展示 了 如 何 使 用 Spark Streaming 处 理 Twitter 消息 ， 有 具体 步骤 如 下 : 

(1) 打开 终端 并 将 目录 调整 为 spark-2.1.1-bin-hadoop2.7。 

(2) 在 spark-2.1.1-binhadoop2.7 文件 夹 中 创建 streamouts 文件 夹 ， 并 于 其 中 安装 
Spark。 当 应 用 程序 运行 时 ，Streamouts 对 象 将 采集 消息 ， 并 将 其 转换 为 文本 文件 。 

(3) 将 JAR 下 载 至 当前 目录 中 ， 对 应 网 址 为 http://central.maven.org/maven2/org/ 
apache/bahir/spark-streaming-twitter 2.11/2.1.0/spark-streamingtwitter 2.11-2.1.0.jar、http://central. 
maven.org/maven2/org/twitter4j/twitter4j-core/4.0.6/twitter4j-core-4.0.6.jar 和 http://central. 
maven.org/maven2/org/twitter4j/twitter4j-stream/4.0.6/twitter4jstream-4.0.6 jar. 

CA) 利用 Twitter 集成 所 需 的 全 部 JAR 启动 spark-shell， 此 处 定义 为 ,bin/spakr-shell- 
jarstwitter4jstream-4.0.6.jar、twitter4j-core-4.0.6.jar 和 spark-streamingtwitter 2.11-2.1.0.jar。 
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(5) 下 列 代码 用 于 测试 所 处 理 的 Twitter 事件 。 


import org.apache.spark. 

import org.apache.spark.streaming. 

import org.apache.spark.streaming.twitter. | 

import twitter4j.auth.OAuthAuthorization 

import twitter4j.conf.ConfigurationBuilder 

//you can replace the next 4 settings with your own twitter account 
settings. 

System.setProperty ("twitter4j.oauth.consumerKey", 
"8wVysSpBcOLGzbwKMRh8hldSm") 

System.setProperty ("twitter4j.oauth.consumerSecret", 
"FpV5MUDWliR6sInqIYIdkKMQEKaAUHdGJkEb4MVhDkh7dXtXPZ") 
System.setProperty ("twitter4j.oauth.accessToken", 
"817207925756358656- 

yROJR92VBdA2rBbgJaF7PYREbi V8VZq" ) 

System.setProperty ("twitter4j.oauth.accessTokenSecret", 
"JsiVkUItwWCGyOLQEtnRpEhbXyZS9jNSzcMtycn68aBaS") 

val ssc = new StreamingContext (sc, Seconds (10) ) 

val twitterStream = TwitterUtils.createStream(ssc, None) 
twitterStream.saveAsTextFiles ("streamouts/tweets", "txt") 
ssc.start() 


当前 , streamouts 文件 夹 中 包含 了 多 个 消息 输出 文本 文件 ,我 们 可 尝试 打开 此 类 文件 ， 
并 查看 其 中 的 内 容 ， 以 确保 文件 中 涵盖 相关 消息 。 


7.3.4 ”离散 流 


离散 流 (DStream) 表示 为 Spark Streaming 之 上 构建 的 抽象 层 。 其 中 ， 每 个 DStream 
体现 为 一 个 RDD 序列 , 并 在 特定 的 时 间 间 隔 处 被 创建 。 随 后 , DStream 可 采用 与 常规 RDD 
类 似 的 方式 加 以 处 理 ， 并 借助 于 有 向 循环 图 (DAG) 执行 计划 这 一 类 概念 。 类 似 于 常规 
RDD 处 理 过 程 ， 隶 属于 这 一 执行 计划 中 的 任何 转换 和 操作 均 在 DStream 场合 下 被 处 理 ， 
如 图 7.7 所 示 。 

DStream 根据 时 间 间 隔 将 较 长 的 数据 流 划 分 为 较 小 的 块 ， 并 作为 RDD 处 理 每 个 块 。 
这 一 类 微 批 处 理 以 独立 方式 操作 ， 且 均 为 无 状态 微 批 处 理 。 这 里 ， 假 设 批 处 理 的 时 间 间 
BAA 5 秒 ， 且 事件 呈 实 时 状态 ， 同 时 ， 微 批 处 理 作 为 RDD 被 进一步 处 理 。 关 于 Spark 
Streaming， 需 要 注意 的 是 ， 用 于 处 理 微 批 处 理事 件 的 API 调用 集成 到 Spark API 中 ， 以 
便 与 体系 结构 的 其 余部 分 集成 。 当 微 批 处 理 创建 完毕 后 ， 将 变 为 一 个 RDD， 并 支持 基于 
Spark APIDE 无 缝 处理 ， 如 图 7.8 所 示 。 
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DStream 


WindowedDStream ReducedWindowedDStream InputDStream 


FlatMappedDStream FlatMapValuedDStream m FilelnputDStream 


UnionDstream 
GlommedDStream MapWithStateDStream 


I—* QueuelnputDstream 


Il ConstantInputDStream 


ReceiverinputDStream 


ForEachDStream MappedDStream 


StateDStream MapPartitionedDStream 


MapValuedDStream FilteredDStream 


ShuffledDStream TransformedDStream 


图 7.7 


DStream 


RDD@Tmel : RDD@Time2 RDD @Time3 $ RDD @ Time4 


Data from : Data from : Data from f Data from 
Time O to 1 : Time 1 to 2 : Time 2 to 3 : Time 3 to 4 
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下 列 代码 定义 了 DStream 25: 

class DStream[T: ClassTag] (var ssc: StreamingContext) 

//hashmap of RDDs in the DStream 

var generatedRDDs = new HashMap[Time, RDD[T]] () 

其 中 创建 了 StreamingContext, 并 每 隔 5 秒 生成 一 个 微 批 处 理 , 进而 创建 一 个 与 Spark 
Core API RDD 类 似 的 RDD。 这 一 类 数据 流 中 的 RDD 可 采用 与 其 他 RDD 类 似 的 方式 进 
行 处 理 。 

构建 一 个 数据 流 应 用 程序 的 相关 步骤 如 下 : 

(1) 从 SparkContext 中 创建 StreamingContext. 

(2) 从 某 个 数据 流 中 创建 DStream。 

(3) 上 下 文 环 境 提供 了 可 用 于 RDD 的 转换 和 操作 。 

(4) 调用 treamingContext 上 的 start 启用 流 应 用 程序 。Spark Streaming 应 用 程序 将 
以 实时 方式 进行 处 理 。 
0 注意: 

一 旦 启用 了 Spark Streaming 应 用 程序 ， 则 无 法 进一步 添加 操作 。 处 于 终止 状态 的 
StreamingContext 也 无 法 重新 启动 ， 必 须 创 建 一 个 新 的 StreamingContext。 

下 列 示例 展示 了 如 何 生 成 一 个 流 作 业 ， 并 以 此 访问 Twitter。 

(1) 从 SparkContext 中 创建 一 个 StreamingContext， 如 下 所 示 : 


Scala» val ssc = new StreamingContext (sc, Seconds (5) ) 
ssc: org.apache.spark.streaming.StreamingContext = 
org.apache.spark.streaming.StreamingContext@8ea5756 


(2) 从 StreamingContext 中 创建 一 个 DStream， 如 下 所 示 : 


Scala» val twitterStream = TwitterUtils.createStream(ssc, None) 
twitterStream: 
org.apache.spark.streaming.dstream.ReceiverInputDStream[twitter4j. 
Status] = 
org.apache.spark.streaming.twitter.TwitterInputDStream@46219d14 


(3) 提供 可 用 于 每 个 独立 RDD 的 转换 和 操作 ， 如 下 所 示 : 


val aggStream = twitterStream 

.flatMap(x => x.getText.split(" ")).filter( .startsWith("#") ) 
-map (X => (x, 1)) 

-reduceByKey( + ) 


(4) 调用 StreamingContext 上 的 start 启用 流 应 用 程序 ， 如 下 所 示 : 
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ssc.start() 
//to stop just call stop on the StreamingContext 
ssc.stop(false) 


在 步骤 (2) 中， 我 们 创建 了 ReceiverInputDStream 类 型 的 DStream， 表 示 为 一 个 抽 
RK, EXT HTE worker 节点 上 启动 接收 器 才能 接收 外 部 数据 的 TnputDStream。 

下 面 这 个 例子 展示 了 从 Twitter Stream 中 接收 到 的 信息 : 

class InputDStream[T: ClassTag]( ssc: StreamingContext) extends 

DS て ream [T] ( ssc) 


class ReceiverInputDStream[T: ClassTagl( sso: StreamingContext) extends 
TnputDStream [T] ( ssc) 


运行 twitterStream 上 的 flatMap0 转 换 将 生成 一 个 FlatMappedDSream, 如 下 所 示 : 


Scala» val wordStream = twitterStream.flatMap (x => x.getText().split(" ")) 
wordStream: org.apache.spark.streaming.dstream.DStream[String] = 
org.apache.spark.streaming.dstream.FlatMappedDStream@led2dbd5 


74 4% R 


DStream 上 的 转换 与 Spark Core RDD 十 分 类 似 。DStream 由 RDD 构成 ， 因 而 转换 应 
用 于 每 个 RDD E, 并 针对 每 个 RDD 生成 一 个 转换 后 的 RDD, 进而 创建 转换 后 的 DStream。 
每 个 转换 均 会 创建 一 个 特定 的 DStream 派生 类 。 

相应 地 ， 存 在 多 个 DStream 类 并 针对 某 项 功能 予以 定义 。 例 如 ， 了 映射 转换 、 窗 口 函 
Zi. Reduce 操作 以 及 不 同 的 InputStream 类 型 均 采用 了 不 同 的 DStream 派生 类 加 以 实现 。 

表 7.1 显示 了 可 能 的 转换 类 型 。 


表 7.1 
转 d 具体 含义 
map(func 针对 DStream 的 每 个 元 素 使 用 transformation 函数 , 并 返回 行 的 DStream 
过 滤 DStream 的 记录 ， 并 返回 一 个 新 的 DStream 


创建 分 区 并 重新 分 布 数据 ， 进 而 调整 并 行 机 制 


union(otherStream) 组 合 两 个 源 DStream 中 的 元 素 ， 并 返回 一 个 新 的 DStream 
count() 计算 源 DStream 的 每 个 RDD 中 的 元 素数 量 ， 并 返回 新 的 DStream 
reduce(func EI DStream 的 每 个 RDD 上 使 用 reduce 函数 ,并 返回 一 个 新 的 DStream. 


countByValue() 计算 每 个 Key 的 频率 ， 并 返回 (Key, Long) 对 的 新 DSream 
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转 OR 


reduceByKey(func, [numTasks]) 


具体 含义 
通过 源 DStream 的 RDD 中 的 Key 聚合 数据 ， 并 返回 一 个 新 的 (Key, 
Value) 对 的 DStream 
连接 两 个 区 V) 和 (K. W) 対 的 DStream， 并 返回 一 个 新 的 (K, (V, W) 
对 的 DStream， 同 时 整合 两 个 DStream 中 的 数值 
当 调 用 (K, V) 和 (K, W) 对 的 DStream 时 ，cogroup 转换 将 返回 一 个 (K， 
Seq(V),Seq(W)) 元 组 的 新 DStream 
在 源 DStream 的 每 个 RDD 上 应 用 转换 函数 ,并 返回 一 个 新 的 DStream 
通过 将 既定 函数 应 用 于 键 的 之 前 状态 和 键 的 新 值 ， 更 新 每 个 键 的 状 
态 。 通 常用 于 维护 状态 机 


join(otherStream, [numTasks]) 


cogroup(otherStream, [numTasks]) 


transform(func) 


updateStateByKey(func) 


74.1 窗口 操作 


Spark Streaming 支持 窗口 处 理 ， 并 可 在 事件 的 滑动 窗口 上 应 用 转换 。 其 中 ， 滑 动 窗 
口 在 在 特定 的 间隔 上 被 创建 。 

每 次 窗口 滑 过 一 个 DStream 时 , 落 入 窗口 规范 中 的 源 RDD 经 整合 后 将 生成 一 个 窗口 
DStream， 如 图 7.9 所 示 。 该 窗口 须 包 含 以 下 两 个 参数 。 

ロ ”窗口 长 度 : 指定 了 所 考查 的 间隔 长 度 。 

Q ”滑动 间隔 : 窗口 的 生成 间隔 。 


基于 滑动 窗口 的 DStream 


RDD @ Time1 RDD @ Time2 |: RDD @ Time3 | RDD @ Time4 


Data from Data from Data from Data from 


: Time 0 to 1 : Time 1 to 2 Time 2 to 3 F Time 3 to 4 
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O iz. 


窗口 长 度 和 滑动 间隔 应 为 块 间 隔 的 倍数 。 
d 7.2 列 出 了 常见 的 转换 。 


转 d 


具体 含义 


window(windowLength, slideInterval) 


在 源 DStream 上 创建 一 个 窗口 , 并 作为 新 
DStream 予以 返回 


的 


countByWindow(windowLength.slideInterval 


reduceByWindow(func,windowLength,slideInterval) 


reduceByKeyAndWindow(func,windowLength,slideInterval, 


[numTasks]) 


reduceByKeyAndWindow(func, invFunc,windowLength, 


slideInterval,[numTasks]) 


countByValueAndWindow(windowLength,slideInterval, 


numTasks 


通过 滑动 窗口 返回 DStream 值 的 元 素 计 数 


在 创建 了 长 度 为 windowLength 的 滑动 窗 


口 


后 , 针对 源 DStream 的 每 个 元 素 应 用 reduce 


函数 ， 进 而 返回 一 个 新 的 DStream 
在 应 用 于 源 DStream 的 RDD 的 窗口 中 ， 
过 Key 聚合 数据 ， 并 返回 (Key，Value) 对 


新 DStream。 该 计算 过 程 由 func 函数 提供 


窗口 w 应 用 于 源 DStream 的 RDD 的 间隔 
并 返回 (Key, Value) 对 的 新 DStream. 该 函 
与 上 述 reduceByKeyAndWindow 函数 部 
主要 差别 在 于 invFunc (在 滑动 窗口 开始 
即 完成 计算 ) 

计算 每 个 Key 的 频率 ， 并 返回 滑动 窗 [ 
的 、(Key,Long) 对 的 新 DStream 


通 
的 


数 
的 
时 


下 面 再 次 考查 前 述 Twitter Stream 示例 ， 当 前 目标 是 每 隔 5 秒 输出 消息 流 中 常用 的 5 
个 单词 ， 窗 口 长 度 为 15 秒 且 每 隔 10 秒 滑动 。 当 运行 对 应 代码 时 ， 需 要 执行 下 列 步 又 : 
(1) 打开 终端 ， 并 将 目录 调整 为 spark-2.1.1-bin-hadoop2.7。 
(2) 在 spark-2.1.1-bin-hadoop2.7 文件 夹 中 创建 名 为 streamouts 的 文件 ， 其 中 安装 了 
Spark。 当 运行 应 用 程序 时 ，streamouts 文件 夹 中 包含 了 全 部 消息 文本 文件 。 
(3) 下 载 JAR 并 将 其 置 于 当前 目录 中 ， 对 应 网 址 为 http://central.maven.org/maven2/ 
org/apache/bahir/spark-streaming-twitter 2.11/2.1.0/spark-streaming-twitter 2.11-2.1.0.jar、 
http://central.maven.org/maven2/org/twitter4j/twitter4j-core/4.0.6/twitter4j-core-4.0.6.jar 和 http:// 
central.maven.org/maven2/org/twitter4j/twitter4j-stream/4.0.6/twitter4j-stream-4.0.6.jar. 
(4) 利用 消息 集成 所 需 的 JAR 启动 Spark Shell, H[/bin/spark-shell--jars twitter4jstream- 
4.0.6.jar. twitter4j-core-4.0.6.jar 和 spark-streamingtwitter 2.11-2.1.0.jar. 
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(5) 下 列 示例 代码 用 于 测试 消息 处 理 : 


import org.apache.10g4j.Logger 

import org.apache.10g4j.Level 
Logger.getLogger ("org") .setLevel (Level .OFF) 

import java.util.Date 

import org.apache.spark. 

import org.apache.spark.streaming. 

import org.apache.spark.streaming.twitter. 

import twitter4j.auth.OAuthAuthorization 

import twitter4j.conf.ConfigurationBuilder 
System.setProperty ("twitter4j.oauth.consumerKey", 8wVysSpBcOLGzbwKMRh8hldSm") 
System.setProperty ("twitter4j.oauth.consumerSecret", 
"FpV5MUDWliR6sInqIYIdkKMQEKaAUHdGJkEb4MVhDkh7dXtXPZ") 
System.setProperty ("twitter4j.oauth.accessToken", 
"817207925756358656-yROJR92VBdA2rBbgJaF7PYREbiV8VZq") 
System.setProperty ("twitter4j.oauth.accessTokenSecret", 
"JsiVkUItwWCGyOLQEtnRpEhbXyZS9jNSzcMtycn68aBaS") 


val ssc = new StreamingContext(sc, Seconds (5) ) 

val twitterStream = TwitterUtils.createStream(ssc, None) 

val aggStream = twitterStream 

.flatMap(x => x.getText.split(" ")) 

.filter( .startsWith("4")) 

.map(x => (x, 1)) 

.reduceByKeyAndWindow( + , - , Seconds(15), Seconds(10), 5) 


ssc.checkpoint ("checkpoints") 

aggStream. checkpoint (Seconds (10) ) 
aggStream.foreachRDD((rdd, time) => { 

val count = rdd.count() 

if (count > 0) { 

val dt = new Date(time.milliseconds) 
printin(s"\n\n$dt rddCount = $count\nTop 5 words\n") 


val top5 = rdd.sortBy( . 2, ascending = false) .take(5) 
top5.foreach { 

case (word, count) => 

println(s" [$word] - $count") 

}} } ) 

sSsc.start 

//wait 60 seconds 


ss.stop(false) 
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The output is shown on the console every 15 seconds, looking like 
the following: 

Mon May 29 02:44:50 EDT 2017 rddCount = 1453 

Top 5 words 


[#RT] - 64 
#de] - 24 
[fa] - 15 

fto] = 15 
#the] - 13 


Mon May 29 02:45:00 EDT 2017 rddCount = 3312 
Top 5 words 


#RT] - 161 
tdf = 47 
4a] - 35 
[fthe] - 29 
#to] - 29 


7.4.2. ”有 状态 /无 状态 转换 


Spark Streaming 使 用 了 DStream 这 一 概念 ， 基 本 上 可 视 为 RRD 数据 微 批 处 理 。 除 此 
之 外 ， 我 们 还 介绍 了 一 些 可 应 用 于 DStream 之 上 的 转换 。DStream 转换 可 分 为 两 种 类 型 ， 
即 有 状态 转换 和 无 状态 转换 。 

在 无 状态 转换 中 ， 每 个 数据 的 微 批 处 理 是 否 被 处 理 与 之 前 的 数据 批 次 无 关 ， 也 就 是 
说 ， 每 个 批 处 理 完 全 独立 于 之 前 的 数据 批 次 。 

在 有 状态 转换 中 ， 每 个 数据 的 微 批 处 理 部 分 或 全 部 取决 于 之 前 的 数据 批 次 。 因 此 ， 
每 个 批 处 理 将 考查 前 一 次 批 处 理 ， 并 在 处 理 过 程 中 使 用 到 相关 信息 。 

1. 无 状态 转换 

通过 将 转换 应 用 于 DStream 中 的 每 个 RDD，DStream 将 被 转换 为 男 一 个 DStream， 
如 图 7.10 所 示 。 相 关 示 例 包 括 mapO. flatMapO. union), join()fll reduceBykey(). 

2. 有 状态 转换 

有 状态 转换 应 用 于 某 个 DStream 上 ， 但 依赖 于 前 一 次 处 理 状态 。 相 关 示 例 包括 
countByValueAndWindow()、reduceByKeyAndWindow()、 mapWithState() 和 updateStateByKey(). 
根据 定义 ， 所 有 基于 窗口 的 转换 均 为 有 状态 转换 ， 我 们 须 跟踪 DSream 的 宮口 民度 和 滑 
动 间隔 。 
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无 状态 转换 


RDD @ Time1 RDD @ Time2 RDD @ Time3 RDD @ Time4 


inputDStreami | Data from Data from Data from Data from 
Time 0 to 1 Time 1 to 2 Time 2 to 3 Time 3to 4 


€ ee a a SINCE 


mapDStream: Data from Data from Data from Data from 
Time 0 to 1 Time 1 to 2 Time 2 to 3 Time 3to 4 


正如 预期 的 那样 ， 实 时 流 应 用 程序 将 运行 很 长 一 段 时 间 ， 同 时 保持 对 故障 的 弹性 ， 
Spark Streaming 实现 了 一 种 称 为 检查 点 的 机 制 ， 该 机 制 跟踪 一 定量 的 信息 ， 并 可 从 任何 
故障 中 予以 恢复 。 对 此 ， 存 在 两 种 检查 点 类 型 ， 如 下 所 示 : 

口 元 数据 检查 点 。 

Q 数据 检查 点 。 

通过 调用 StreamingContext 上 的 checkpointO 即 可 启用 检查 点 ， 如 下 所 示 ; 

def checkpoint (directory: String) 

这 指定 了 存储 检查 点 数据 的 目录 。 需 要 注意 的 是 ， 此 处 须 采用 基于 容错 机 制 的 文件 
系统 ， 例 如 HDFS。 

当 检 查 点 目录 设置 完毕 后 ， 任 何 DStream 都 可 以 根据 时 间 间 隔 对 其 进行 检查 。 在 前 
述 Twitter 示例 中 ， 每 隔 10 秒 将 对 每 个 DStream 予以 检查 ， 如 下 所 示 : 


val ssc = new StreamingContext (sc, Seconds (5) ) 


val twitterStream = TwitterUtils.createStream(ssc, None) 
val wordStream = twitterStream.flatMap(x => x.getText().split(" ")) 
val aggStream = twitterStream 
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-flatMap(x => x.getText.split(" ")).filter( .startsWith("4")) 
-map(x => (x, 1)) 

-reduceByKeyAndWindow( + , ー , Seconds (15), Seconds(10), 5) 
ssc.checkpoint ("checkpoints") 

aggStream. checkpoint (Seconds (10) ) 

wordStream. checkpoint (Seconds (10) ) 


75.1 元 数据 检查 点 


元 数据 检查 点 将 DAG 表示 的 、 定 义 数 据 流 操作 的 信息 保存 至 HDFS H, MATERE 
故障 时 恢复 DAG， 以 便 应 用 程序 重新 启动 。 随 后 ， 驱 动 程序 重启 并 从 HDFS 中 读 取 全 部 
元 数据 ， 在 恢复 崩溃 前 状态 的 同时 重新 构建 DAG。 


75.2 ”数据 检查 点 


数据 检查 点 将 RDD 保存 至 HDFS 中 。 对 于 流 应 用 程序 中 的 故障 ， 可 对 RDD 予以 恢 
复 并 持续 进行 处 理 。 除 了 恢复 功能 之 外 ， 数 据 检查 点 还 对 缓存 清空 或 执行 器 丢失 所 导致 
的 RDD 丢失 提供 帮助 。 生 成 后 的 RDD 无 须 等 待 DAG PS RDD 被 重新 处 理 。 
对 于 以 下 应 用 程序 ， 需 要 启用 检查 点 机 制 : 
口 采用 有 状态 转换 时 。 如 果 使 用 updateStateBykey0 或 reduceByKeyAndWindow() 
函数 (及 其 反 函 数 ) ， 那 么 ， 需 要 针对 RDD 检查 点 给 定 检查 点 目录 。 
O “在 运行 应 用 程序 时 恢复 驱动 程序 故障 。 元 数据 检查 点 有 助 于 恢复 工作 进度 中 的 
HR. 


如 果 不 存在 有 状态 转换 ， 应 用 程序 则 可 在 未 启用 检查 点 的 情况 下 运行 。 


O 注意 : 


一 种 可 能 的 情况 是 ， 丢 失 已 接收 但 尚未 处 理 的 数据 。 


需要 注意 的 是 ,RDD 检查 点 将 每 个 RDD 保存 至 存储 中 , 这 将 增加 基于 检查 点 的 RDD 
的 批 处 理 时 间 。 因 此 ， 为 了 避免 性 能 损失 ， 需 要 设置 和 调整 检查 点 间隔 ， 这 对 于 实时 处 
理 来 说 十 分 重要 。 较 小 的 批 处 理 尺 寸 (例如 1 秒 ) 意味 着 检查 点 频繁 出 现 ， 这 可 能 会 降 
低 操作 的 吞吐 量 。 相 反 ， 不 频繁 的 检查 点 会 导致 任务 尺寸 增加 ， 由 于 队列 数据 量 太 大 ， 
进而 会 产生 处 理 延 迟 问 题 。 

基于 RDD 检查 点 的 有 状态 转换 通常 包含 默认 的 检查 点 间隔 (至 少 10 秒 ) 。 一 种 较 
好 的 方案 是 ， 检 查 点 间隔 设置 为 5 一 10 个 DStream 滑动 间隔 。 
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7.6 ”了 驱动 程序 故障 恢复 


借助 于 StreamingContext.getOrCreate0， 可 对 驱动 程序 故障 进行 恢复 。 如 前 所 述 ， 这 
将 从 已 存在 的 检查 点 处 初始 化 StreamingContext， 或 者 生成 新 的 StreamingContext。 

此 处 并 不 打算 实现 createStreamContext0 函数 ， 该 函数 创建 一 个 StreamingContext、 
设置 DStream 并 解释 消息 内 容 , 并 生成 前 5 个 最 为 常用 的 主题 标签 (每 隔 15 秒 使 用 一 个 窗 
口 ) 。 这 里 并 未 依次 调用 createStreamContext0 和 ssc.start)， 而 是 调用 了 getOrCreate0 一 一 
如 果 检 查 点 存在 ， 那 么 StreamingContext 将 根据 checkpointDirectory 中 的 数据 予以 重建 。 
如 果 不 存在 此 类 目录 ， 或 者 应 用 程序 首次 运行 ， 那 么 将 调用 createStreamContext0， 如 下 
所 示 : 


val ssc = StreamingContext.getOrCreate (checkpointDirectory, 
createStreamContext  ) 


下 列 代 码 展示 了 对 应 函数 的 定义 方式 ， 以 及 getOrCreate() 的 调用 方式 。 


val checkpointDirectory = "checkpoints" 

//Creating and setting up a new StreamingContext 

def createStreamContext(): StreamingContext = ( 

val ssc = new StreamingContext (sc, Seconds (5) ) 

val twitterStream = TwitterUtils.createStream(ssc, None) 

val wordStream = twitterStream.flatMap(x => x.getText().split(" ")) 
val aggStream = twitterStream 

.flatMap(x => x.getText.split(" ")).filter( .startsWith("4")) 
.map(x => (x, 1)) 

.reduceByKeyAndWindow( + , - , Seconds(15), Seconds(10), 5) 
ssc.checkpoint (checkpointDirectory) 

aggStream. checkpoint (Seconds (10) ) 

wordStream. checkpoint (Seconds (10) ) 

aggStream.foreachRDD((rdd, time) => { 

val count = rdd.count() 

if (count > 0) { 

val dt = new Date(time.milliseconds) 

println(s"\n\n$dt rddCount = $count\nTop 5 words\n") 

val top10 = rdd.sortBy( . 2, ascending = false) .take(5) 
top10.foreach | 


case (word, count) => 
println(s" [$word] - $count") 


} 
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) 
}) 
ssc 


} 


//Retrieve StreamingContext from checkpoint data or create a new one 
val ssc = StreamingContext .getOrCreate (checkpointDirectory, 
createStreamContext ) 


7.7 与 流 平台 的 互 操作 性 (Apache Kafka ) 


Spark Streaming 与 Apache Kafka 这 一 当前 最 为 流行 的 消息 平台 间 实 现 了 良好 的 集成 。 
其 中 涉及 多 种 方案 ， 且 随 着 时 间 的 变化 ， 性 能 和 可 靠 性 也 得 到 了 不 断 的 完善 。 

其 中 包括 以 下 3 种 主要 方案 : 

O 基于 接收 器 的 方案 。 

口 Direct Stream 方案 。 

Q Structured Streaming. 


7.7.1 基于 接收 器 的 方案 


第 一 种 集成 方案 是 Spark 和 Kafka 之 间 的 集成 。 在 基于 接收 器 的 方案 中 ,驱动 程序 启 
动 执行 程序 上 的 接收 器 ， 然 后 使 用 Kafka 代理 的 高 级 API 提取 数据 。 鉴 于 事件 从 Kafka 
代理 中 获取 ， 因 而 接收 器 将 偏 移 量 更 新 到 Zookeeper 中 , Kafka 集群 也 采用 了 这 个 方法 。 
这 里 ， 重 点 是 采用 了 预 写 日 志 (WAL) 功能 ， 这 是 接收 器 在 Kafka 采集 数据 时 写 入 的 


内 容 。 


如 果 存 在 问题 ， 且 执行 器 或 接收 器 须 重 启 抑或 丢失 ，WAL 可 用 于 恢复 事件 并 对 其 进 
行 处 理 。 最 终 ， 这 种 基于 日 志 的 设计 方案 可 提供 可 靠 、 一 致 的 结果 。 

事件 的 输入 DStream 由 每 个 Kafka 主题 的 接收 器 创建 ， 同 时 它 查 询 Kafka 主题 、 代 
理 和 偏 移 量 。 考 虑 到 处 于 登录 和 运行 状态 下 的 接收 器 ， 并 行 机 制 将 变 得 更 加 复杂 一 一 随 
着 应 用 程序 规模 不 断 壮 大 ， 工 作 负 载 无 法 得 到 适当 的 分 配 。 另 一 个 问题 则 是 对 HDFS 的 


依赖 ， 以 及 写 操作 的 台 


E 复 性 。 对 于 “ 仅 一 次 ”处 理 范式 ， 也 存在 可 靠 性 要 求 ， 其 原因 在 


于 ， 只 有 和 窜 等 方案 可 正常 工作 。 事 务 性 方法 也 无 法 在 基于 接收 器 的 方案 中 工作 ， 因 为 没 


有 一 种 方法 可 以 访问 基于 Zookeeper 或 HDFS 位 置 的 偏 移 量 范围 。 尽管 如 此 , 接收 器 方案 


仍 是 较为 通用 的 方法 ， 


它 适用 于 任何 消息 传递 系统 ， 如 图 7.11 所 示 。 


第 7 章 Apache Spark 实时 数据 分 析 ・231・ 


基于 接收 器 的 
高 层 API 和 WAL 


Kafka 


集群 
代理 


通过 高 层 API 接收 数据 


Zookeeper 


更 新 偏 移 量 至 Zookeeper 


图 7.11 
基于 接收 器 的 数据 流 可 通过 调用 createStream() API 创建 ， 如 下 所 示 : 


def createStream( 

ssc: StreamingContext, 

//StreamingContext object 

zkQuorum: String, 

//Zookeeper quorum (hostname:port,hostname:port,..) 
groupId: String, 

//Group id for the consumer 

topics: Map[String, Int], 

//Map of (topic name to numPartitions) to consume 
storageLevel: StorageLevel = StorageLevel.MEMORY AND DISK SER 2 
//Storage level to use for storing the received objects 
(default: StorageLevel.MEMORY AND DISK SER 2) 

): ReceiverInputDStream[ (String, String)] 

//DStream of (Kafka message key, 

Kafka message value) 


下 列 示例 代码 显示 了 如 何 创 建 基于 接收 器 的 数据 流 〈 从 Kafka 代理 中 提取 消息 ) 。 
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val topicMap = topics.split(",").map(( , numThreads.toInt)).toMap 
val lines = KafkaUtils.createStream(ssc, zkQuorum, group, 
topicMap).map( . 2) 


7.7.2 Direct Stream 


可 以 创建 一 个 输入 流 ， 它 不 使 用 接收 器 直接 从 Kafka. 代理 中 提取 消息 ， 这 可 确保 每 
个 Kafka 消息 在 转换 中 只 包含 一 次 ， 如 图 7.12 所 示 。 


基于 高 层 API 的 — 
直接 集成 : goes 


通过 偏 移 量 
发 布 作 业 


Ee : 执行 器 
Zookeeper : 
"€ NIME GNE | ee 


Kafka 
集群 


图 7.12 


Direct Stream 的 属性 具体 如 下 。 

Q 不 存在 接收 器 : Direct Stream 不 使 用 接收 器 ， 且 直接 查询 Kafka. 

O 備 移 量 : Direct Stream 不 使 用 Zookeeper 存储 偏 移 量 ， 任 何 所 使 用 的 偏 移 量 均 通 
过 数据 流 自 身 被 跟踪 。 每 个 批 处 理 中 使 用 的 偏 移 量 可 从 生成 的 RDD 中 访问 。 

Q ”故障 恢复 : 须 开 启 数据 流 上 下 文中 的 检查 点 ， 进 而 从 驱动 程序 故障 中 予以 恢复 。 

口 ” 端 到 端 示意 图 : 数据 流 可 确保 所 有 记录 可 一 次 性 地 被 接收 和 转换 ， 但 却 无 法 保 
证 转换 后 的 数据 一 次 性 地 输出 。 

Direct Stream 的 创建 方式 如 下 所 示 , 其 中 使 用 了 Kafka Utils 中 的 createDirectStream() API. 


def createDirectStream[ 
K: ClassTag, 
//K type of Kafka message key 
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V: ClassTag, 

//N type of Kafka message value 

KD <: Decoder[K]: ClassTag, 

//KD type of Kafka message key decoder 

VD «: Decoder[V]: ClassTag, 

//ND type of Kafka message value decoder 

R: ClassTag 

//R type returned by messageHandler 

TRC 

ssc: StreamingContext, 

//StreamingContext object 

kafkaParams: Map[String, String], 

/* 

kafkaParams Kafka «a 
href="http://kafka.apache.org/documentation.html#configuration"> 
configuration parameters</a>. Requires "metadata.broker.list" or 
"bootstrap.servers" 

to be set with Kafka broker(s) (NOT Zookeeper servers) specified in 
hostl:portl,host2:port2 form. 

ad 

fromOffsets: Map[TopicAndPartition, Long], 

//fromOffsets Pertopic/ 

partition Kafka offsets defining the (inclusive) starting point of 
the stream 

messageHandler: MessageAndMetadata[K, V] => R 

//messageHandler Function 

for translating each message and metadata into the desired type 
): InputDStream[R] 

//DStream of R 


下 列 Direct Stream 示例 从 Kafka 主题 中 获取 数据 ， 进 而 生成 DStream。 


val topicsSet = topics.split(",").toSet 

val kafkaParams : Map[String, String] = 
Map("metadata.broker.list" -» brokers, 

"group.id" => groupid ) 

val rawDstream = KafkaUtils.createDirectStream[String, String, 
StringDecoder, StringDecoder] (ssc, kafkaParams, topicsSet) 


Direct Stream API fX n] Ej Kafka 协同 使 用 ， 因 而 不 具备 通用 性 。 


7.7.3 Structured Streaming 


Apache Spark 2.0+ 之 后 加 入 了 结构 化 的 Structured Streaming， 但 仍 处 于 开发 的 测试 阶 


・234・ Hadoop 大 数据 分 析 实 战 


段 ， 稍 后 将 详细 介绍 Structured Streaming 的 应 用 方式 。 关 于 Structured Streaming 中 的 Kafka 
集成 ， 读 者 可 访问 https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html 
以 了 解 更 多 信息 。 

下 面 的 代码 片段 展示 了 如 何在 Structured Streaming 中 使用 Kafka 源 。 

val dsl = spark 

-readStream 

-format ("kafka") 

-option("kafka.bootstrap.servers", "hostl:portl,host2:port2") 

-option("subscribe", "topicl") 

-load() 

ds1 .seleotExpr ("CAST (key AS STRING)", "CAST (value AS STRING)") 

-as [ (String, String)] 

下 面 的 示例 显示 了 Kafka 源 的 使 用 方式 ， 而 非 源 数据 流 《〈 如 果 希 望 使 用 批 处 理 分 析 
方案 ) 。 

val dsl = spark 

.read 

-format ("kafka") 

-option ("kafka.bootstrap.servers", "hostl:portl,host2:port2") 

-option("subscribe", "topicl") 

-1oad ( ) 

ds1 .seleotExpr ("CAST (key AS STRING)", "CAST (value AS STRTNG) ") 

.as[(String, String)] 

Structured Streaming 是 一 种 具有 容错 性 、 可 伸缩 的 流 处 理 引 擎 ， 且 构建 于 Spark SQL 
引擎 之 上 。 但 是 ，Structured Streaming 允许 在 接收 的 数据 中 指定 事件 时 间 ， 以 便 后 续 数据 
可 被 自动 关注 。 需 要 注意 的 是 ， 在 Spark 2.1 中 , Structured Streaming 仍 处 于 测试 阶段 ， 
且 相 关 API 被 标记 为 “experimental”。 对 此 ， 读 者 可 访问 https://spark.apache.org/docs/ 
latest/structured-streaming-programmingguide.html 以 了 解 更 多 信息 。 

Structured Streaming 背后 的 驱动 思想 是 将 数据 流 视 为 不 断 加 入 其 中 的 无 界 表 。 随 后 ， 
计算 和 SQL 查询 可 应 用 于 该 表 之 上 , 通常 可 对 批 处 理 数据 采取 此 类 做 法 .例如 ,Spark SQL 
查询 将 处 理 无 界 表 。 由 于 DStream 随时 间 变 化 ， 因 而 处 于 增长 的 数据 量 将 被 处 理 ， 进 而 
生成 结果 表 。 该 表 可 写 入 外 部 接收 位 置 处 ， 也 称 作 输 出 。 

下 面 通过 监听 本 地 主机 端口 9999 的 输入 内 容 ,， 进而 考查 Structured Streaming 查询 的 
创建 示例 。 在 Linux 或 macOS 环境 下 ， 可 利用 下 列 命令 在 端口 9999 上 启动 服务 器 : 


nek9999 
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下 列 示 例 通 过 调用 SparkSession 的 readStream API 创建 inputStream， 并 于 随后 从 各 
行 中 析 取 单词 。 接 下 来 ， 单 词 将 被 分 组 ， 并 统计 出 现 次 数 。 最 后 ， 相 关 结果 将 写 入 输出 
流 中 ， 如 下 所 示 : 


//Creating stream reading from localhost 999 


val inputLines = spark.readStream 

-format ("socket") 

-option("host", "localhost") 

-option("port", 9999) 

.load() 

inputLines: org.apache.spark.sql.DataFrame = (value: string] 
// Splitting the inputLines into words 

val words = inputLines.as[String].flatMap( .split(" ")) 
words: org.apache.spark.sql.Dataset[String] - [value: string] 
// Generating running word count 

val wordCounts = words.groupBy ("value") .count () 

wordCounts: org.apache.spark.sql.DataFrame = [value: string, count: 
bigint] 

val query = wordCounts.writeStream 

-outputMode ("complete") 

-format ("console") 


query: 
org.apache.spark.sql.streaming.DataStreamWriter[org.apache.spark.sql.Row] = 
org.apache.spark.sql.streaming.DataStreamWriter@4823f4d0 

query.start () 


只 要 单词 输入 终端 中 ， 查 询 即 被 更 新 ， 随 后 将 其 不 断 地 输出 至 控制 台 ， 如 下 所 示 : 


Scala» ------------------------------------------- 
Batch: 0 


|value|count | 
4----- 4----- 十 
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| dogi 1| 

| cat] 1] 

ドー ニニ ニー pcc * 
Scala» ------------------------------------------- 
Batch: 2 
エーー ニ ニー ーー ニニ ーー 十 
|value|count| 
4----- 4----- 十 
| dogl 21 

| catl 1| 
4----- 4----- * 


7.8 处 理事 件 时 间 和 延迟 日 期 


事件 时 间 是 指数 据 内 部 的 时 间 。Spark Streaming 将 这 一 时 间 定 义 为 DStream 的 接收 
时 间 。 但 对 于 需要 使 用 到 事件 时 间 的 许多 应 用 程序 来 说 ， 这 已 然 足够 。 例 如 ， 如 果 计 算 
消息 中 出 现 的 主题 标签 的 次 数 〈 每 分 钟 ) ， 则 需要 使 用 数据 生成 的 时 间 ， 而 不 是 Spark 
接收 事件 的 时 间 。 

下 列 示例 将 监听 服务 器 端口 9999，Timestamp 当前 作为 输入 数据 的 一 部 分 内 容 被 启 
用 。 因 此 ， 现 在 可 在 无 界 表 上 执行 窗口 操作 ， 如 下 所 示 : 

import java.sql.Timestamp 

import org.apache.spark.sql.SparkSession 

import org.apache.spark.sql.functions. _ 


// Creating DataFrame that represent the stream of input lines from 
connection 


to host:port 

val inputLines = spark.readStream 

. format ("socket") 

.option("host", "localhost") 

-option("port", 9999) 

.option("includeTimestamp", true) 

-load() 

// Splitting the lines into words, retaining timestamps 

val words = inputLines.as[(String, Timestamp)].flatMap(line => 
line. 1.split(" ").map(word => (word, line. 2)) 

) . toDF ("word", "timestamp") 

// Grouping the data by window and word and computing the count of each 
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val windowedCounts = words.withWatermark("timestamp", "10 seconds") 
-groupBy ( 

window($"timestamp", "10 seconds", "10 seconds"), $"word" 

) -count () . orderBy ("window") 

// Begin executing the query which will print the windowed word counts to 
the 

console 

val query = windowedCounts.writeStream.outputMode ("complete") 

-format ("console") 

.option("truncate", "false") 


query.start () 
query.awaitTermination() 


79 容错 示意 图 


“ 仅 一 次 ”处 理 范 式 在 传统 流 式 机 制 中 相对 复杂 ， 需 要 使 用 到 外 部 数据 库 /存储 维护 偏 


移 量 。 另 外 ，Structured Streaming 仍 处 于 变化 中 ， 在 被 广泛 使 用 之 前 仍 需要 克服 许多 问题 。 


710 本 章 小 结 


本 章 讨论 了 流 处 理 系统 、Spark Streaming. Apache Spark 中 的 DStream, DAG 和 


DStream 系统 以 及 转换 操作 。 除 此 之 外 ， 本 章 还 介绍 了 窗口 流 式 处 理 ， 以 及 基于 Spark 
Streaming 的 Twitter 消息 处 理 机 制 。 接 下 来 ， 我 们 学 习 了 基于 接收 器 和 Direct Stream 的 
数据 方案 (结合 Kafka) 。 最后， 本章 还 讲解 了 Structured Streaming 这 一 较 新 的 开发 技术 。 
据 此 ， 我 们 可 以 解决 诸多 挑战 性 问题 ， 例 如 故障 容错 、 数 据 流 中 的 “ 仅 一 次 ”处 理 方案 ， 
以 及 与 消息 系统 (例如 Kafka) 间 集 成 的 简化 方法 ,同时 保持 与 其 他 输入 流 类 型 集成 的 灵 
活性 和 可 扩展 性 。 


第 8 童 将 讨论 Apache Flink， 这 也 是 Spark 计算 平台 中 的 关键 问题 。 
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本 章 主要 向 读者 介绍 Apache Flink， 并 根据 批 处 理 模型 使 用 Flink 进行 大 数据 分 析 。 
此 外 ， 本 章 还 将 考查 DataSet API， 对 于 执行 大 数据 上 的 批 处 理 分 析 ， 它 提供 了 易于 使 用 
的 方法 。 

本 章 主要 涉及 以 下 主题 : 

Apache Flink 简介 。 

安装 Flink。 

使 用 Scala Shell。 

使 用 Flink 集群 UI。 

利用 Flink 进行 批 处 理 分 析 。 


ロロ ロロ ロ 


8.1 Apache Flink 简介 


Flink 是 一 个 针对 分 布 式 流 处 理 的 开源 框架 ， 并 包含 以 下 特性 : 

ロ ”提供 了 准确 的 结果 ， 即 使 对 无 序 和 延迟 数据 也 是 如 此 。 

Q Flink 是 有 状态 的 且 兼 具 容 错 特性 ， 当 维护 “ 仅 一 次 ”应 用 程序 状态 时 ， 可 无 颖 
地 从 故障 中 进行 恢复 。 

O 规模 较 大 ， 可 运行 于 数 千 个 节点 上 ， 具 有 非常 好 的 吞吐 量 和 延迟 特性 。 

图 8.1 显示 了 Apache Flink 应 用 方式 的 官方 文档 截图 。 
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图 8.2 显示 了 Apache Flink 框架 的 另 一 种 观察 方式 。 
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图 8.2 

当 运 行程 序 的 主 方法 时 ， 所 有 的 Flink 程序 均 以 延迟 方式 执行 ， 且 并 不 会 直接 执行 数 
据 加 载 和 转换 。 相 反 ， 每 项 操作 在 创建 后 将 添加 至 程序 的 计划 中 。 当 显 式 地 被 执行 环境 
中 的 execute0 所 触发 后 ， 相 关 操 作 方 被 真正 地 予以 执行 。 程 序 在 本 地 或 集群 上 执行 取决 
于 执行 环境 的 类 型 。 相 应 地 ， 延 迟 程序 可 构建 更 加 复杂 的 程序 一 一 Flink 作为 一 个 整体 计 
划 单 元 被 执行 。 

Flink 程序 看 上 去 与 转换 数据 集 的 常规 程序 并 无 两 样 ， 每 个 程序 均 由 相同 的 基本 内 容 
构成 ， 如 下 所 示 : 

O ”获取 执行 环境 。 

Q ”加载 初始 数据 。 

O ”指定 对 应 数据 上 的 转换 、 聚 合 和 连接 。 

口 

口 


指定 计算 的 放置 位 置 。 
触发 程序 执行 。 


8.1.1 无 园 数 据 集 的 连续 处 理 


在 深入 讨论 Apache Flink 之 前 ， 首 先 在 较 高 层次 上 介绍 一 下 数据 集 的 类 型 ， 在 处 理 
数据 的 过 程 中 ， 以 及 选取 处 理 过 程 中 的 执行 模型 时 会 涉及 这 一 类 问题 。 这 两 个 概念 经 常 
被 混淆 ， 因 而 有 必要 了 解 其 中 的 差别 。 
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首先 ， 存 在 以 下 两 种 数据 集 类 型 。 

口 无 界 : 可 持续 添加 的 无 限 数 据 集 。 

口 有 界 : 有 限 的 、 无 不 可 改变 的 数据 集 。 

实际 上 ， 许 多 传统 意义 上 视 为 有 界 或 批 处 理 的 数据 集 均 为 无 界 数据 集 ， 无 论 数据 是 
和 否 存储 于 HDFS 上 的 目录 序列 ， 或 者 是 基于 日 志 的 系统 (例如 Apache Kafka) 中， 这 一 
结论 均 成 立 。 

一 些 无 界 数 据 集 包括 但 不 仅 限于 以 下 形式 : 

O 与 移动 或 Web 应 用 程序 交互 的 终端 用 户 。 

Q ”提供 测量 结果 的 物理 传感器 。 

Q 金融 市 協 。 

Q 机 器 产生 的 日 志 数 据 。 

其 次 ， 类 似 于 上 述 两 种 数据 集 类 型 ， 还 存在 以 下 两 种 执行 模型 类 型 。 

Q 数 据 流 : 只 要 产生 数据 ， 即 持续 执行 的 处 理 过 程 。 

口 ” 批 处 理 ， 在 有限 的 时 间 内 执行 并 完成 的 处 理 过 程 ， 随 后 释放 计算 资源 。 

数据 集 类 型 和 执行 模型 间 的 组 合并 无 硬性 规定 ,但 最 终结 果 不 一 定 是 最 优 的 。 例 如 ， 
批 处 理 执行 一 直 以 来 应 用 于 无 界 数据 集 上 ， 尽 管 存在 一 些 窗口 机 制 、 状 态 管理 以 及 无 序 
数据 等 问题 。 

Flink 依赖 于 流 执行 模型 ， 这 对 于 处 理 无 界 数据 集 较 为 直观 : 数据 流 执 行 过 程 持续 处 
理 连 续 生 成 的 数据 。 在 准确 性 和 性 能 方面 ， 数 据 集 类 型 和 执行 模型 类 型 之 间 的 协调 涵盖 
了 诸多 优点 。 


8.1.2 Flink、 数 据 流 模型 和 有 界 数 据 集 


在 Apache Flink 中 , 可 使 用 DataStream API 与 无 界 数据 协同 工作 , 并 使 用 DataSet API 
与 有 界 数据 协同 工作 。Flink 在 有 界 和 无 界 数据 集 之 间 指 定 了 较为 自然 的 关系 。 相 应 地 ， 
有 界 数据 集 可 视 为 无 界 数据 集 的 特例 ， 因 而 可 针对 两 种 数据 集 类 型 使 用 相同 的 概念 。 

有 界 数据 集 作 为 有 限 数据 流 在 Flink 内 部 被 处 理 ， 对 于 Flink 的 管理 方式 ， 有 界 数据 
集 和 无 界 数据 集 间 仅 存在 较 小 的 差异 。 最 终 ， 可 采用 Flink 对 有 界 和 无 界 数据 进行 处 理 ， 
两 种 API 运行 于 同一 分 布 式 流 式 执行 引擎 上 一 一 这 是 一 种 简单 且 功 能 强大 的 体系 结构 。 


82 安装 Flink 


本 节 将 讨论 Apache Flink 的 下 载 和 安装 过 程 。 


・242・ 


Hadoop 大 数据 分 析 实 战 


Flink 可 运行 了 
要 安装 Java 7.X( 或 更 高 版 本 )。 如果 用 户 了 


F Linux, OS X 和 Windows 环境 下 。 当 运行 Fink 时 ， 唯 一 的 条 件 是 需 


org/projects/flink/flinkdocs-release-1.4/start/flink on windows.html 以 查看 操作 指南 , 其 中 六 


[ 作 于 Windows 环境 下 , 可 访问 https://ci.apache. 


细 描 述 了 如 何 针对 本 地 设置 在 Windows 上 运行 Flink。 
通过 下 列 命令 ， 可 查看 当前 的 Java 版 本 。 


java -version 


对 于 Java 8， 输 出 结果 如 下 所 示 : 


java version "1.8.0 111" 


Java(TM) SE Runtime Environment (build 1.8.0 111-b14) 
Java HotSpot(TM) 64-Bit Server VM (build 25.111-b14, mixed mode) 


1. 下 载 Flink 


读者 可 访问 https://flink.apache.org/downloads.html， 并 下 载 与 对 应 于 


Flink 二 进 制 文件 ， 如 图 8.3 所 示 。 


D @ https://link.apache.org/downloads.htmi 


Giu 
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Quickstart C? Hadoop® 28 
Flink on GitHub $ Hadoop® 27 
Hadoop® 26 
Project FAQ に ーー 


@ApacheFlnk C$ ‘Source 


B 


red to use Fink. If you plan to run Fink in YARN or process data stored in HDFS then 
(our nstale Hadoop 


Without bundled Hadoop® 


图 8.3 


tt Download 项 将 下 载 Hadoop 2.8， 随 后 可 在 浏览 器 中 看 到 相应 的 下 载 页 面 ， 如 图 8.4 
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所 示 。 
D www.apache.org/dyn/closer.lua/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala_2.11.tgz 


Home » Dyn About ~ Projects People ~ Get Involved ~ 


APACHE 


SOFTWARE F NDATION 


We suggest the following mirror site for your download: 


http://apache.mesi.com.ar/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala_2.11.tgz 


Other mirror sites are suggested below. 


It is essential that you verify the integrity of the downloaded file using the PGP signature ( .asc file) or a hash ( .md5 or .sha* file). 


Please only use the backup mirrors to download KEYS, PGP and MDS sigs/hashes or if no other mirrors are working 


HTTP 


http://apache.claz.org/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala_2.11.tgz 
http://apache.cs.utah.edu/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala 2.11.tgz 
http://apache.mesi.com.ar/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala_2.11.tgz 
http://apache.mirrors.hoobly.com/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala_2.11.tgz 
http://apache.mirrors.ionfish.org/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala_2.11.tgz 
http://apache. mirrors.lucidnetworks.net/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala_2.11.tgz 


http://apache. mirrors. pair.com/flink/flink-1.4.2/flink-1.4.2-bin-hadoop28-scala_2.11.tgz 


图 8.4 


此 处 下 载 了 flink-1.4.2-bin-hadoop28-scala_2.11.tgz, 这 也 是 最 新 的 版 本 (在 本 书 撰写 时 ) 。 
待 下 载 完 毕 后 ， 析 取 二 进 制 文件 。 在 Mac 或 Linux 机 器 上 ， 可 运行 tar 命令 ， 如 图 8.5 
所 示 。 


Moogie:~ sridharalla$ tar -xvzf flink-1.4.2-bin-hadoop28-scala_2.11.tgz 
x flink-1.4.2/ 


x flink-1.4.2/Lib/ 
x flink-1.4.2/lib/flink-dist 2.11-1.4.2.jar 


图 8.5 


2. 安装 Flink 
首先 需要 将 当前 目录 调整 为 析 取 Apache Flink 的 位 置 ， 如 下 所 示 : 


cd flink-1.4.2 
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相关 内 容 如 图 8.6 所 示 。 


Moogie:flink-1.4.2 sridharalla$ 1s 
LICENSE README . txt conf i opt 
NOTICE bin examples resources 


启动 本 地 Flink 集群 
通过 bin 文件 夹 中 的 下 列 脚本 ， 即 可 启用 本 地 集群 : 
./bin/start-local.sh 
运行 了 上 述 脚本 ， 即 可 看 到 启用 后 的 集群 。 
在 http:/flocathowt:8081 处 检查 JobManager 的 Web 前 端 , 确保 一 切 处 于 正常 运行 状态 。 
这 里 ，Web 前 端 应 显示 一 个 可 用 的 Task Managers 实例 ， 如 图 8.7 所 示 。 


入 Apache Fink Dashboard 


B 
Ce 


Running Jobs 
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較 8.7 


通过 检查 logs 目录 中 的 日 志文 件 ， 还 可 进一步 验证 当前 系统 处 于 运行 状态 ， 如 下 
所 示 : 


tail log/flink-*-jobmanager-*.1log 


输出 结果 如 图 8.8 所 示 。 
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Moogie:flink-1.4.2 sridharalla$ tail log/flink-*-jobmanager-*.log 
2018-04-27 13:38:50,400 INFO org.apache.flink.runtime.jobmonoger.JobManager Starting JobManager actor 
04-27 13:38:50,405 INFO org.apache.flink.runtime.blob.BlobServer Created BLOB server storage directory /var/folde 
5yxz8w1]3js11f94tp]4n2_h9090gn/T/blobStore-92f21 o^ -9351-769b543ddbce 
7 13:38:50,408 INFO org.apache.flink.runtime.blob.BlobServer Started BLOB server at 0.0.0.0:57213 - max concu 
rrent requests: 50 - max backlog: 1000 
18-04-27 13:38:50,492 INFO org.apache.flink.runtine. jobmanager . JobManager - Starting JobManager at akka.tcp://flinkélocalhos 
16123/user/ jobmanager , 
2018-04-27 13:38:50,492 INFO org.apache.flink.runtime. jobmonoger .MemoryArchivist - Started memory archivist akka://flink/user/archi 
ve 


2018-04-27 13:38:50,502 INFO org.apache. flink. runtime, jobmanager . JobManager - JobManager akka.tcp://flinkélocalhost:6123/user/ 


jobmanager was granted leadership with Leader session ID Some(00000000-0000-0000-0000-000000000000) 

2018-04-27 13:38:50,505 INFO org.opache.flink.runtime.clusterframework.stondolone.StandaloneResourceManoger - Trying to associate with JobMa 

nager leader akka.tcp://flink8l :6 jobmanager 

2018-04-27 13:38:50,510 INFO o! runtime.clusterframework.standalone.StandaloneResourceManager - Resource Manager associating w 

ith leading JobManager Actor[akko://fli jobmanageré-1691988345] - leader session 00000000-0000-0000-0000-000000000000 

2018-04-27 13:38:51,561 INFO org.opache.flink.runtime.clusterframework.stondalone.StandaloneResourceManoger - TaskManoger 675697f1ebd9bc592 
39d1fb85311 has started. 

2018-04-27 13:38:51,563 INFO org.apache.flink - Registered TaskManager ot 10.0.0.103 Cokko.tcp:/ 

/flinkémoogie. Local :57215/user/taskmanager) os 29ccfceb7a4ecd7720. Current number of registered hosts is 1. Current number of al 

1 


图 8.8 
当 使 用 Scala Shell 时 ， 可 输入 下 列 命 令 : 
./bin/start-scala-shell.sh remote localhost 6123 
对 应 结果 如 图 8.9 所 示 。 


Moogie:flink-1.4.2 sridharalla$ ./bin/start-scala-shell.sh remote localhost 6123 
Starting Flink Shell: 
1094j:WARN No appenders could be found for logger org.apache.flink.configuration.GlobalConfiguration). 
log4j:WARN Please initialize the log4j system properly. 
ARN See http: //logging. apache. org/1094,/1.2/faq.htmlfnoconfig for more info. 


Connecting to Flink cluster (host: localhost, port: 6123). 
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输入 下 列 命 令 可 加 载 数据 : 


val dataSet = benv 
.readTextFile ("OnlineRetail.csv") 
dataSet.count() 


对 应 结果 如 图 8.10 所 示 。 


val dataSet = benv.readTextFile("OnlineRetail.csv") 
: org.apache.flink.api.scala.DatoSet[String] = org.apache.flink.api .scala.DotoSeté381507d1 


dotoSet.count() 
Submitting job with JobTD: fbf2a1b91092986f8619eb9bZbe2dcl0. Waiting for job completion 
Connected to JobManager at Actor[akka.tcp: //flinkélocalhost:49293/user/jobmanager-2051465536] with leader session id 00000000-0000-0000-0000- 
000000000000. 

Job execution switched to status RUNNING 

DataSource (at $Line8.$read$$in$$inSSimSSinSSinSSinSSinSSin$$inS$inSSinSSinSSinSSiWSSiwSSinSSin$SinSSinSSin$SinsSin$$i 
Ot OH Dp y 1) switched to SCHEDULED 

DataSource (at $line8. $read$Sin$SinSSinSSinSSinSSinSSinSSinS$in$$inSSinSSinSSinSSinSSinSSinS$inSSinSSinSSin$SinSSinss 
WbSinS$in$ in$SinSS$in$SinS$inS$inSSinSSiwS$iIC1/ 1) switched to DEPLOYING 
04/27/2018 15:37:35 DataSource (at $line8. $read$$in$SinSSinSSinSSiwSSinSSinSSinSSinSSinS$inSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSS 
WSSiNSSinSSinSSinSSinSSinSSinSSinSSinSSinS$i)(1/1) switched to RUNNING 
84/ :37:35 ^ DataSink (org.apache.flink.api. java.Utils$CountHelper®@75aa7703)(1/1) switched to SCHEDULED 
04/27/2018 1 DataSink Corg.apache. flink.api . java.UtilsS$Count per&75aa7703)(1/1) switched to DEPLOYING 

DataSink Corg.apache. flink.api . java. Uti ls$CountHelpe (1/1) switched to RUNNING 

DataSource (at $line, Sread$Sin$SinSSinSSinSSinSSinSSinSSin$SinS$inS$inSSin$$inSSinSSiwSSinSSinSSinSSinSSin$Sin$Sinss 
WSSinS$ind$inSSinSSinS$in$SiwsSis$in$Siws$i)(1/1) switched to FINISHED 
04/27/2018 15:37. rg. apache. flink.api.. java. UtilsSCountHelperé75a07703)(1/1) switched to FINISHED 
04/27/2018 15:37:36 Job execution switched to status FINISHED 

: Long = 65500 


图 8.10 


下 列 代码 ， 可 输出 数据 集 的 前 5 行内 容 : 


dataSet 
-first (5) 
.print() 


对 应 结果 如 图 8.11 所 示 。 
通过 map0， 可 执行 简单 的 转换 操作 ， 如 下 所 示 


dataSet 

.map(x >> x.split(" 
.first(5) 

.print() 


") (2) ) 


对 应 结果 如 图 8.12 所 示 。 
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datoSet.first(5).printO 

Submitting job with JobID: 2b31324ec79fZ74qb1c9bggg35b64bb6. Waiting for job completion 

Connected to JobManager at Actor[akka.tcp://flink&localhost:49293/user/jobmanogerii-2051465536] with leader session id 00000000-0000-0000-0000- 

000000000000 

04/27/2018 15:38:59 Job execution switched to status RUNNING 

04/27/2018 15:38:59 DataSource (at SlineB. $readSSiwS$in$$inSSinS$inSSinSSinS$inSSinS$inSSinSSinSSinSSinSSinSS inSSinS$inSSinSSinsSin$$ins$i 

inSSiwSSiwS$iwSSiwSSiwSSiwgSiwSSiwSSiwSSi)(1/1) switched to SCHEDULED 

04/27/2018 15:38:59 DataSource (at SlineB. $readSSinSSin$SinSSinSSinSSinSSinS$inSSinSSinSSinSSinSSinSSinSSinSSinSSinS$inSSinSSinsSinsSins$i 

w$$iwSSiw$SiwS$iwSSiuSSiwSSiw$Siw$SiwSS$iw$$i)(1/1) switched to DEPLO! 

04/27, 59 DataSource Cat $line8. SreadS$inSSinS$in$SinS$inSSiw$Sin$SinSSinSSinSSinSSinS$inSSinSSinSSinSSinS$inSSinSSinSSinS$in$$i 

wSSiw$Siw$$iwS$inSSiwSSiwSSiw$$iwSSiwSSiw$$i)(1/1) switched to RUNNING 
GroupReduce (GroupReduce at org.apache. flink.api .scola.DataSet.first(DataSet.scalo:820))(1/1) switched to SCHEDULED 
GroupReduce (GroupReduce at org.apache. flink.api.scola.DotoSet.first(DataSet.scalo:820))(1/1) switched to DEPLOYING 
GroupReduce (GroupReduce at org.apoche. nk .api . scola. DataSet . fi DataSet scala 1) switched to RUNNING 
DataSink (collect())(1/1) switched to SCHEDULED 
DataSink (collect())(1/1) switched to DEPLOYING 
GroupReduce (GroupReduce at org.apache. flink.api. DataSet. first(Datasi :820))(1/1) switched to FINISHED 
DataSink (collect())(1/1) switched to RUNNING 
DataSink (collect()}(1/1) switched to FINISHED 

04, 018 15:38:55 DataSource Cat $line8.S$read$Siw$$iwSSiw$SiwS$iwSSiu$SiwS$iwSSiwSSinSSiw$SiwSSiwSSiwSSiwSSiw$SiwS$iwSSiuSSiu$SiwSSiwSSi 

WSSinSSiWSSinSS$iWSSinSSin$SinSSiwSSinSSiwS$i(1/1) switched to FINISHED 

/2018 15: 9 Job execution switched to status FINISHED. 

InvoiceNo, StockCode Description, Quantity, InvoiceDate Uni tPri ce , Customer ID, Country 

536365,85123A, WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/10 8 ,2.55,17850,United Kingdom 

536365,71053, WHITE METAL LANTERN, 6, 12/1/10 8:26,3.39,17850, United Kingdom 

536365, 84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/10 8:26,2.75,17850, United Kingdom 

536365, 84029G KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/10 8:26 17850,United Kingdom 


dataSet.map(x => x.splitC ) (5).print© 
tting job with JobID: 6513e a611d5a81 r job completion. 
C d to JobManager at Actor[okka. tcp: //flink®Localho: 293/ jobmanager#-2051465536] with leader session id 00000000-0000-0000-0000- 
000000000000. 


04/27/2018 15:39:51 Job ion switched to stotus RUNNING. 
04/27/2018 15:39:51 CHAIN DataSource (at Sline8. SreadSSin$$inS$inS$inSSinSSinSSinSSinSSinSSinSSinSSinSSiwSSinSSinSSinSSinSSin$Sin$Sin$Sing 
SiwSSinSSinSSinSSinSSiwSSinSSinSSinSSinSSinSSin$Si) -> Mop (Mop at SLine13.SreadSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSsinsSingS, 
inSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSin$SinS. <init>C<console>:65))(1/1) switched to SCHEDULED 
04/27/2018 15:39:51 CHAIN DataSource (at $line8.SreadSSinSSiwsSinS$inSSinSSimSSinSSinS$inSSinSSinSSinSSiwSSinSSinSSinSSinSSinSSinSSinsSin$. 
SinSSinSSin$SinSSinSSinSSinS Sins $inS$inSSinSSins: Mop (Mop at Sline13. $readSSin$SinS$inSSinSSin$SiSSinSSinSSinSSinSSinS$inSSinSSinSSinSS 
iMSSinSSinS$inSSinSSinSSinSSinSSinSSinSSinSSinSSiwSSinS$inSSin$Sin$Sin$SinSSin$Sin$.<init>(<console>:65))(1/1) switched to DEPLOYING 
04/27/2018 15:39:51 CHAIN DataSource (at $line8. SreadSSinS$inS$inS$inSSinSSinSSinSSinS$inSSinSSinSSiwS$iwS$inSSin$Sin$$in$Sin$Sin$Sin$Sin$ 
SinSSinSSinSSinSSinSSinSSinSSinS$inSSinSSinSSin$$i) -> Map (Mop at $line13.SreadSSinSSinS$inSSinSSinSSiwSSinSSinSSinSSinSSinSSinS$inSSinSSingS 
iMSSinSSinSSinSSinSSiMSSiWSSiNSSINSSiNSSiNSSiwSSiWSSiWSSinSSinSSinSSinSSinSSinSSin$. «init» «console»:65))(1/1) switched to RUNNING 
15: GroupReduce (GroupReduce at org.apache.flink.api .scala. DataSet. First(DataSet.scala:820))(1/1) switched to SCHEDULED 
15 GroupReduce (GroupReduce at org.opache.flink.api.scala.DataSet.first(DataSet.scala:820))(1/1) switched to DEPLOYING 
15 GroupReduce (GroupReduce at org.apache.flink. api .scala. DataSet . First(DatoSet. i ) switched to RUNNING 
15:39: DataSink CcoLtectO)1/1) switched to SCHEDULED 
15 DataSink (collect()}(1/1) switche DEPLOYING 
15 GroupReduce (GroupReduce at che. flink.api .scala.DataSet.first(DatoSet.scala:820))(1/1) switched to FINISHED 
15 DataSink (collect) (1/1) swit to RUNNING 
15 DataSink (collect())(1/1) switched FINISHED 
15:39:51 CHAIN DataSource (at Sline8.SreadSSinS$inSSiwsSinSSinSSinSSinSSinSSinSSinSSinSSinS$iSSiwSSinSSinSSinSSindSinSSinSSin$ 
SinSSinSSinSinSSinSSinSSinSSinSSinSSinSSinSSin$Si) -> Mop (Mop at Sline13.SreadSSin$SinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSin$SinS$ 
imSSinSSinSSinSSinSSinSSinSSinSSinSSinSSinSSiwSSiwSSinSSinSSinSSin$Sin$SinSSinSSin$. «init» «console»:65))(1/1) switched to FINISHED 
7/2018 15:39:51 Job execution switched to stotus FINISHED. 
Description 
WHITE HANGING HEART T-LIGHT HOLDER 
WHITE METAL LANTERN 
CREAM CUPID HEARTS COAT HANGER 
KNITTED UNION FLAG HOT WATER BOTTLE 


图 8.12 


Xu: 


dataSet 
.flatMap (x => x.split(",")) 
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-Map(x=> (x,1)) 
-groupBy (0) 
.sum(1) 
.first(10) 
.print() 


对 应 结果 如 图 8.13 所 示 。 


(,25447) 

(015,05) 

C 1 HANGER ,30) 

C 3 TIER,1) 

C 4 PURPLE FLOCK DINNER CANDLES, 4) 


C BACK DOOR ",31) 

C BAROQUE" ,3) 

C BILLBOARD FONTS DESIGN" ,12) 
C BIRTHDAY CARD,28) 

C BLUE", 1) 


图 8.13 


8.3 使 用 Flink 集群 UI 


当 使 用 Flink 集群 UI 时 ， 可 查看 并 监测 集群 中 的 运行 内 容 ， 并 可 进一步 深入 考查 各 
种 作业 和 任务 。 其 中 包括 作业 状态 的 检测 、 取 消 作 业 或 者 调试 作业 中 的 任何 问题 。 通 过 
查看 标签 ， 还 可 对 代码 问题 进行 诊断 和 修复 。 

图 8.14 显示 了 Completed Jobs 列表 。 


loeaihost:8081/m/comg 


Ga Apache Fink Dashboard Completed Jobs 


2018-04-29, 19:02:17 2018-04-29, 19:02:19 1s Fink Java Job at Sun Apr 29 19:02:17 EDT 2018 50d7a91cfsa95dd31e6ds21722fcee23 回 IPC 


2018-04-27, 16:02:21 2018-04-27, 16:02:23 1» n mApr 27 160221 EDT 2018 73144926e7tiadbeod9dte4b6161 回避 HDC ロ EC 


y 27 160205 EDT 2018 bb7c4O69e23bacggtbb2cocsb95818 回 DE 


图 8.14 
随后 ， 可 查看 特定 的 作业 ， 并 考查 与 作业 执行 相关 的 详细 内 容 ， 如 图 8.15 所 示 。 
例如 ， 可 查看 作业 的 Timeline 以 了 解 更 多 信息 ， 如 图 8.16 所 示 。 
图 8.17 显示 了 Task Managers 作业 ， 以 及 所 有 的 任务 管理 器 。 这 将 有 助 于 我 们 理解 


任务 管理 器 的 数量 和 状态 。 
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localhost -9 4 


Fink Java Job at Sun Apr 29 19:02:17 EDT 2018 gogogaoogog 


Overview 


Subtasks 


‘Aggregate task statistics by TaskManager 


2018-04-29, IAIN DataSource (at 
POSEES WSS WES WSSWSS WSSE SMESNI SNES WSS WSS WSSEWSS WSS WIS WESMWSSWSSWSSIWwSSIWSS WESIWSSIWSSiwSSIWSS WSI 
Map at 
ne11 Sread$ $$ SS SWSS WSS WSS WSS WEE WIS SSNS SW SSN SSNS ENS SWS SWSS WwSS WSS WIS WSS WIS wsSiuS SSSin$ Sv SSmbSius: 
init>{<consoie>:65) -> Map (Map at 
AISES ESES WIS WSS WSS SS SS SS WSS SSM SiwS E ESWSE WSS WSS WS SNSSIw SS AS d SIN SSW SSIS SISSIN SIS! 
>65) -> Combine(SUMT) 


Fink Java Job at Sun Apr 29 19:02:17 E 


‘Scheduled 
CHAIN DataSource (at Sine8 SreadSSiw$SiwS$ w$S:wSSin$SiwSSin$SiwsSinSSwSSinS$wSSiwSSi SiwS SWS SISS WES WS WSS WSSE SNES WSSIwS$ WS WSSiwSS WESS SSS 


Reduce (SUM(1) 


Er 200 
190217 1 190219 


图 8.16 


localhost. 


oo 


‘akka.tep:/Mink@moogle locaS7215 2016-04-29, 1 160GB 1 641 MB 
fusernaskmanager 190357 
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除 此 之 外 ， 还 可 对 Logs 进行 检查 ， 如 图 8.18 所 示 。 


Task Manager 


Logs 


2018-04-27 13:38:49,151 1 


2018-04-27 13:38 
2018-04-27 13:38: 


30:49,505 INFO o 


Jucseewer uam 


ashmanager. Tashanage Starting TasbManager (Version: 1.4.2, Revi&dedciS, D 


05 current user: sridharalia 
~ Unable to load native-hadoop library for your platfor 


Tasktanage! 


Current Hadoop/Kerberos user: sridharalla 


makinua heas 1024 Mibytes 
JAVA. HOME: ) 
Hadoop ver: a 
JW Opti 


'orySize-t388607T 
s/sridaratta/fLink-1,4.2/109/f14 


-Taskanager btog4j .conflgurationsfitet/usersysridharatta/rtlL 


Tasisianage: -Diogback. configurat ionF itest e: /Bsers/sridharal 


Users/sridharalla/flink-1,4.2/conf 


图 8.18 


Metrics 标签 显示 了 与 内 存 和 CPU 资源 相关 的 详细 信息 ， 如 图 8.19 所 示 。 


localhost 
Task Manager 


Metrics 


Overview 


Memory 


JVM (Heap/Non-Heap) 


Heap 


Outside JVM 


Direct 


Mapped 


Network 


Memory Segments 


图 8.19 
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另外 ， 还 可 作为 作业 提交 JAR， 并 代 蔡 在 Scala Shell 中 编写 的 所 有 内 容 ， 如 图 8.20 
所 示 。 


© localhost:8081/#/submit 


Q]à Apache Flink Dashboard Submit new Job 


Uploaded Jars 


Add New + 


图 8.20 
8.44 批 处 理 分 析 


Apache Flink 中 的 批 处 理 分 析 与 流 式 分 析 较 为 类 似 ，Flink 使 用 相同 的 API 处 理 两 种 
类 型 的 分 析 ， 因 而 具有 较 强 的 灵活 性 ， 以 便 代码 在 类 中 不 同 的 分 析 类 型 之 间 复 用 。 

本 节 将 在 OnlineRetail.csv 提供 的 样本 数据 上 考查 一 些 分 析 人 作业。 此外， 还 将 加 载 
cities.csv 和 temperature.csv 以 执行 更 多 的 连接 操作 。 


84.4 读 取 文 件 


Flink 包含 多 种 内 建 格式 ， 并 从 普通 的 文件 格式 中 生成 数据 集 。 其 中 ， 许 多 格式 在 执 
行 环境 中 具有 相应 的 快捷 方法 。 

1. 文件 源 

文件 源 可 利用 下 列 API 进行 读 取 。 

口 readTextFile(path)/TextInputFormat: 逐 行 读 取 文 件 并 以 字符 串 的 形式 返回 。 

口 readTextFileWithValue(path)/TextValueInputFormat: 逐 行 读 取 文件 ， 并 作为 
StringValues 将 其 返回 。 这 里 ，StringValues 为 可 变 的 字符 串 。 

Q readCsvFile(path)/CsvInputFormat: 解析 用 逗号 〈 或 另 一 个 字符 ) 分 隔 的 字段 的 
文件 ， 并 返回 元 组 形式 的 DataSet、 类 对 象 或 POJO, 同时 还 支持 基本 的 Java 类 
型 及 其 Value 对 应 的 字段 类 型 。 
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口 readFileOfPrimitives(path, delimiter)/PrimitiveInputFormat: 使 用 给 定 的 分 隔 符 解 
析 换 行 〈 或 另 一 个 字符 序列 ) 分 隔 的 、 原 始 数 据 美 型 ( 例 如 String 或 Integer) 
的 文件 。 

口 readHadoopFile(FileInputFormat, Key, Value.path)/FileInputFormat : 创建 一 个 
JobConf， 并 通过 FileInputFormat、Key 类 和 Value 类 从 指定 的 路 径 读 取 文件 ， 
并 将 其 作为 Tuple2<Key, Value> 了 予以 返回 。 

口 readSequenceFile(Key, Value, path)/SequenceFileInputFormat: 创建 一 个 JobConf, 
并 利用 SequenceFileInputFormat 类 型 、Key 类 和 Value 类 从 指定 的 路 径 中 读 取 文 
件 ， 随 后 将 其 作为 Tuple2<Key, Value> 返 回 。 

2. 基于 集合 的 源 

基于 集合 的 源 〈 例 如 利润 表 、 数 组 等 数据 结构 ) 可 利用 下 列 APT 读 取 。 

ロロ fromCollection(Seq): 从 Seq 中 创建 一 个 DataSet。 集合 中 的 全 部 元 素 须 为 相同 的 

Q fromCollection(Iterator): 从 Iterator 中 创建 一 个 DataSet. 政美 指定 了 途 代 器 返 回 

Q fromElements(elements: *): 从 给 定 的 对 象 序列 中 创建 一 个 DataSet, 全部 対象 須 
为 同一 类 型 。 

Q fromParallelCollection(SplittableIterator) : 从 和 迭 代 器 中 以 并 行 方式 创建 一 个 
DataSet。 该 类 指定 了 迭代 器 返回 元 素 的 数据 类 型 。 

口 generateSequence(from, to): 在 给 定 间隔 中 以 并 行 方式 生成 一 个 数字 序列 。 

3. 通用 源 

通用 CEDE XO. 源 可 利用 下 列 API 进行 读 取 。 

口 readFile(inputFormat, path)/FileInputFormat: 接收 一 种 文件 输入 格式 。 

口 createInput(inputFormat)/InputFormat: 接收 通用 输入 格式 。 


下 面 考查 其 中 的 一 个 API， 即 readTextFile0。 通 过 该 API 读 取 一 个 文件 将 把 一 个 文 
件 (本 地 文 本 文件 、HDFS 文件 、Amazon s3 文件 等 ) 加 载 至 DataSet 中 。 这 一 DataSet 
包含 了 载 入 数据 的 划分 位 置 ， 因 而 可 执行 TB 级 的 数据 。 

下 列 代码 展示 了 OnlineRetail.csv 文件 的 加 载 示例 。 


val dataSet = benv.readTextFile ("OnlineRetail.csv") 
dataSet.first(10).print() 


这 将 输出 加 载 后 的 DataSet 中 的 内 容 ， 对 应 结果 如 下 所 示 : 
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InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,Custome 
rlID,Country 

536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER, 6,12/1/10 
8:26,2.55,17850,United Kingdom 

536365, 71053, WHITE METAL LANTERN, 6, 12/1/10 8:26,3.39,17850,United Kingdom 
536365, 84406B, CREAM CUPID HEARTS COAT HANGER, 8,12/1/10 
8:26,2.75,17850,United Kingdom 

536365, 84029G, KNITTED UNION FLAG HOT WATER BOTTLE, 6,12/1/10 
8:26,3.39,17850,United Kingdom 

536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/10 
8:26,3.39,17850,United Kingdom 

536365,22752,SET 7 BABUSHKA NESTING BOXES, 2,12/1/10 
8:26,7.65,17850,UnitedKingdom 

536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER, 6,12/1/10 
8:26,4.25,17850,United Kingdom 

536366,22633,HAND WARMER UNION JACK,6,12/1/10 8:28,1.85,17850,United 
Kingdom 

536366,22632,HAND WARMER RED POLKA DOT,6,12/1/10 8:28,1.85,17850,United 
Kingdom 


不 难 发 现 ， 第 一 行内 容 表 示 为 数据 头 行 ， 因 而 在 分 析 过 程 中 并 无 实际 用 处 。 通 过 filter) 
函数 可 过 滤 掉 一 行 或 多 行内 容 。 
下 列 代 码 显 示 了 文件 的 加 载 过 程 ， 并 移 除 了 第 一 行内 容 ， 最 后 返回 一 个 DataSet。 


val dataSet -benv 
.readTextFile ("OnlineRetail.csv") 
.filter(! .startsWith("InvoiceNo")) 
dataSet.first(10).print() 


这 将 输出 加 载 后 的 DataSet 中 的 内 容 , 如 下 所 示 : 


536365, 85123A, WHITE HANGING HEART T-LIGHT HOLDER, 6,12/1/10 
8:26,2.55,17850,United Kingdom 

536365, 71053, WHITE METAL LANTERN, 6, 12/1/10 8:26, 3.39, 17850,United Kingdom 
536365, 84406B, CREAM CUPTD HEARTS COAT HANGER, 8,12/1/10 
8:26,2.75,17850,United Kingdom 

536365, 84029G, KNTTTED UNION FLAG HOT WATER BOTTLE, 6,12/1/10 
8:26,3.39,17850,United Kingdom 

536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/10 
8:26,3.39,17850,United Kingdom 

536365,22752,SET 7 BABUSHKA NESTING BOXES,2,12/1/10 
8:26,7.65,17850,United Kingdom 

536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER, 6, 12/1/10 
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8:26,4.25,17850,United Kingdom 

536366,22633,HAND WARMER UNION JACK,6,12/1/10 8:28,1.85,17850,United 
Kingdom 

536366,22632,HAND WARMER RED POLKA DOT,6,12/1/10 
8:28,1.85,17850,United Kingdom 

536367,84879, ASSORTED COLOUR BIRD ORNAMENT, 32,12/1/10 
8:34,1.69,13047,United Kingdom 


不 难 发 现 ， 下 列 数据 头 行 被 移 除 : 


InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,Custome 
rID,Country 


对 于 载 入 后 的 DataSet， 下 面 讨论 其 上 的 更 多 操作 。 
842 转换 


通过 对 原始 DataSet 的 每 一 行使 用 转换 逻辑 ， 转 换 可 将 DataSet 转换 为 一 个 新 的 
DataSet。 例 如 ， 如 果 和 希望 移 除 输入 中 的 第 一 行 〈 数 据 头 ) ， 则 可 使 用 flterO 操 作 。 

下 列 代码 使 用 了 两 项 filter0 操 作 : 首先 是 移 除数 据 头 ; 随后， 确保 每 一 行 中 包含 正 
确 的 列 数 〈 此 处 为 8) 。 

val dataSet = benv.readTextFile ("OnlineRetail.csv") 


.filter(! .startsWith("InvoiceNo")) 
.filter( .split(",").length == 8) 


dataSet.map(x => x.split(",") (2)) 
.first(10).print() 


这 将 输出 加 载 后 的 DataSet 中 的 内 容 , 如 下 所 示 : 


WHITE HANGTNG HEART T-LIGHT HOLDER 
WHITE METAL LANTERN 

CREAM CUPID HEARTS COAT HANGER 
KNITTED UNION FLAG HOT WATER BOTTLE 
RED WOOLLY HOTTIE WHITE HEART. 

SET 7 BABUSHKA NESTING BOXES 

GLASS STAR FROSTED T-LIGHT HOLDER 
HAND WARMER UNION JACK 

HAND WARMER RED POLKA DOT 


类 似 地 ， 还 可 输出 DataSet 中 的 quantity 列 ， 如 下 所 示 : 


dataSet.map(x => x.split(",") (3)) 
-first(10).print() 
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i 


の の いい い いひ の の の 〇 の い 


将 输出 加 载 后 的 DataSet 中 的 内 容 , 如 下 所 示 : 


同样 ， 还 可 输出 DataSet 中 description 和 quantity 类 构成 的 元 组 ， 如 下 所 示 : 


dataSet.map(x => (x.split(",") (2), x.split(",") (3).toInt)) 
.first(10) .print () 


这 将 输出 加 载 后 的 DataSet 中 的 内 容 , 如 下 所 示 : 


(WHITE HANGTNG HEART T-LIGHT HOLDER, 6) 
(WHITE METAL LANTERN, 6) 

(CREAM CUPID HEARTS COAT HANGER,8) 
(KNITTED UNION FLAG HOT WATER BOTTLE, 6) 
(RED WOOLLY HOTTIE WHITE HEART.,6) 

(SET 7 BABUSHKA NESTING BOXES,2) 

(GLASS STAR FROSTED T-LIGHT HOLDER, 6) 
(HAND WARMER UNION JACK, 6) 

(HAND WARMER RED POLKA DOT, 6) 


K 8.1 对 有 效 的 转换 进行 了 适当 的 总 结 ， 读 者 也 可 访问 https://ci.apache.org/projects/ 
flink/flink-docs-release-1.4/dev/batch/dataset transformations.html 以 了 解 相 关内 容 。 


表 8.1 
转 换 描 xk 

id 接收 一 个 元 素 并 生成 一 个 元 素 ， 如 下 所 示 : 

data.map { x => x.toInt } 
flatMap 接收 一 个 元 素 并 生成 0、1 或 更 多 个 元 素 ， 如 下 所 示 : 

data.flatMap { str => str.split(" ") } 

在 单一 函数 调用 中 转换 某 个 并 行 分 区 。 该 函数 以 迭代 器 的 形式 获得 分 区 ， 并 可 生成 任 
mapPartition | 意 数量 的 结果 值 。 每 个 分 区 中 的 元 素数 量 取决 于 并 行 度 和 上 一 次 操作 ， 如 下 所 示 : 


filter 


data.mapPartition { in => in mą 1 


计算 每 个 元 素 的 布尔 函数 ， 并 保留 该 函数 返 


IT 


TRUE 的 值 
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续 表 
转 OR i xk 
针对 每 个 元 素 计算 布尔 函数 ， 并 保留 函数 返回 TRUE 的 元素 。 注意: 系统 假设 函数 不 
reduce 会 修改 应 用 断言 的 元 素 ; 否则 将 导致 错误 的 结果 。 相 关 示 例如 下 所 示 : 
data.filter { >1000} 
将 一 组 元 素 整合 至 单一 元 素 中 ， 也 就 是 说 ， 重 复 地 将 两 个 元 素 整合 至 一 个 元 素 中 。 其 
li], reduce 操作 可 能 会 应 用 于 全 数据 集 上 ， 或 者 是 分 组 后 的 数据 集 上 。 对 应 示例 如 下 
reduceGroup 所 示 : 
datareduce { + 
将 一 组 数值 聚合 至 单一 数值 上 。 聚合 函数 可 视 为 内 建 reduce 函数 。 其 间 ， 聚合 操作 可 
应 用 于 全 数据 集 上 ， 或 者 是 一 个 分 组 后 的 数据 集 上 ， 对 应 示例 如 下 所 示 : 
val input: DataSet[(Int, String, Double)] = // |...) 
val output: DataSet[(Int, String, Double)] — 
aggregate input.aggregate(SUM, 0).aggregate(MIN, 2) 
除 此 之 外 ， 还 可 针对 min. max. sum 聚合 使 用 快捷 语法 ， 如 下 所 示 : 
val input: DataSet[(Int, String, Double)] = // |...) 
val output: DataSet[(Int, String, Double)] — 
input.sum(0).min(2) 
对 于 元 素 的 全 部 字段 , 或 者 是 字段 的 子 集 , 返回 数据 集 的 不 同 元 素 , 并 从 输入 DataSet 
distinct 中 移 除 重复 项 ， 如 下 所 示 : 
data.distinct() 
通过 创建 键 相等 的 全 部 元 素 对 连接 两 个 数据 集 。 作为 可 选 方案 , 还 可 使 用 JoinFunction 
将 元 素 对 转换 为 单一 元 素 ; 或 者 利用 FlatJoinFunction 将 元 素 对 转换 为 任意 多 个 ( 包 
括 0 个 ) 元 素 ， 如 下 所 示 : 
// In this case tuple fields are used as keys. "0" //is the join //field on the first tuple 
// "1" is the join field on the second tuple. 
val result = input] .join(input2).where(0).equalTo(1) 
可 通过 Join Hints 指定 运行 期 执行 连接 的 方式 ， 即 连接 是 否 采用 分 区 、 广 播 、 排 序 或 
joi 哈 希 算法 。 读 者 可 访问 https://ci.apache.org/projects/flink/flink-docs-release-1.4/dev/batch/ 


dataset_transformations.html#join-algorithmhints 以 了 解 相 关 信息 。 如 果 对 此 未 了 予 指定 ， 

系统 则 尝试 估算 输出 尺寸 ， 并 根据 相应 的 结果 选取 最 佳 策略 ， 如 下 所 示 : 

// This executes a join by broadcasting the first data set 

// using a hash table for the broadcast data 

val result = input] join(input2, JoinHint. BROADCAST HASH FIRST) 
-where(0).equalTo(1) 

需要 注意 的 是 ，join 转换 仅 适 用 于 等 值 连接 ， 其 他 join 类 型 则 需要 通过 OuterJoin 或 

CoGroup 予以 表示 


第 8 章 Apache Flink 批 处 理 分 析 ・237・ 


续 表 
描 迷 


OuterJoin 


coGroup 


Cross 


union 


rebalance 


在 两 个 数据 集 上 执行 左 、 右 或 全 连接 。 外 部 连接 类 似 于 常规 (内 部 ) 连接 ， 并 生成 键 
相等 的 全 部 元 素 对 。 除 此 之 外 ， 如 果 另 一 侧 中 不 存在 匹配 键 ， 外 侧 的 记录 〈 左 、 右 或 
全 部 ) 将 被 保留 。 匹 配 的 元 素 对 或 其 他 输入 的 单一 元 素 和 null. 值 ) 将 被 置 入 
JoinFunction， 并 将 元 素 对 转换 为 单一 元 素 ; 抑或 置 入 FlatJoinFunction， 并 将 元 素 对 
转换 为 任意 多 个 元 素 (包括 0 个 ) , 如 下 所 示 : 
val joined = left.leftOuterJoin(right).where(0).equalTo(1) { 
(left, right) => 
val a = if (left = null) "none" else left. 1 
(a, right) 
} 
reduce 操作 的 二 维 变化 版 本 。coGroup 将 一 个 或 多 个 字段 上 的 每 个 输入 分 组 ， 然 后 将 
这 些 分 组 连接 起 来 。 转 换 函 数 针 对 每 个 分 组 对 进行 调用 。 读 者 可 访问 htps:/ciapache.org/ 
projects/flink/flink-docs-release-1.4/dev api concepts.html#specifying-keys, 以 了解 如何 
定义 coGroup 键 。 相 关 示例 如 下 所 示 : 
datal.coGroup(data2).where(0).equalTo(1) 
构建 两 个 输入 的 稍 卡 儿 积 〈 叉 积 ) ， 并 生成 所 有 的 元 素 对 。 作 为 可 选 方案 ， 使 用 
CrossFunction 将 元 素 对 转换 为 单一 元 素 ， 如 下 所 示 : 
val datal: DataSet[Int] =//[...] 
val data2: DataSet[String] = // |...) 
val result: DataSet[(Int, String)] = datal.cross(data2) 
注意 , Cross 是 一 类 计算 密集 型 操作 ， 即 使 在 大 型 计算 群集 上 也 是 如 此 ， 建 议 使 用 
crossSWithTinyO、crossWithHugeO、 数 据 集 的 大 小 对 当前 系统 予以 提示 
生成 两 个 数据 集 的 并 集 ， 如 下 所 示 : 
data.union(data2 
重新 平衡 数据 集 的 并 行 分 区 ， 以 消除 数据 倾斜 。 只 有 map 转换 支持 再 平衡 转换 ， 如 
下 所 示 : 
val data1: DataSet[Int] = // [...] 
val result: DataSet[(Int, String)] = datal rebalance().map(...) 


在 给 定 键 上 对 数据 集 执 行 哈 希 分 区 。 其 中 ， 键 可 以 指定 为 位 置 键 、 表 达 式 键 和 键 选择 
器 函数 ， 如 下 所 示 : 

val in: DataSet[(Int, String)] — // [...] 

val result = in.partitionByHash(0).mapPartition { ... } 

在 给 定 键 上 对 数据 集 执 行 范围 分 区 。 其 中 ， 键 可 以 指定 为 位 置 键 、 表 达 式 键 和 键 选择 
器 函数 ， 如 下 所 示 : 

val in: DataSet[(Int, String)] — // [...] 

val result = in.partitionByRange(0).mapPartition { ... } 


258* 


Hadoop 大 数据 分 析 实 战 


i g 


n 
ya 
> 
x, 


排序 分 区 


First-n 


手动 指定 数据 上 的 分 区 。 注 意 ， 该 方法 仅 适 用 于 单字 段 键 ， 如 下 所 示 : 
val in: DataSet[(Int, String)] = // |...) 
val result = in 
.partitionCustom(partitioner: Partitioner[K], ke 
以 指定 的 顺序 对 指定 字段 上 的 数据 集 的 所 有 分 区 进行 本 地 排序 。 字 段 可 指定 为 元 组 位 
置 或 字段 表达 式 。 在 多 个 字段 上 排序 则 是 通过 链接 sortPartition0O 调 用 完成 的 , 如 下 所 示 : 
val in: DataSet[(Int, String)] = // |...) 
val result = in.sortPartition(1, Order. ASCENDING).mapPartition { 


返回 数据 集 的 前 n 條 元素 。Firstn 适用 于 规则 数据 集 、 分 组 后 的 数据 集 、 分 组 -排序 
后 的 数据 集 。 分 组 键 可 指定 为 键 -选择 器 函数 、 元 组 位 置 或 类 字段 ， 如 下 所 示 : 

val in: DataSet[(Int, String)] = // |...) 

// regular data set 

val resultl = in.first(3) 


// grouped data set 


val result2 — in.groupBy(0).first(3) 

// grouped-sorted data set 

val result3 = in.groupBy(0).sortGroup(1, 
Order.ASCENDING).first(3) 


8.4.3 groupBy 


groupBy 操作 通过 某 些 列 实现 了 DataSet 的 行 聚合 操作 。groupByO 接 收 用 于 聚合 行 的 


列 索引 。 


下 列 命令 通过 Description 进行 分 组 ， 并 输出 前 10 条 记录 。 


dataSet.map(x => (x.split(",") (2), x.split(",") (3).toInt)) 


-groupBy (0) 
-first(10).print() 


这 将 生成 加 载 后 的 DataSet AZ, 如 下 所 示 : 


(WOODLAND DESIGN COTTON TOTE BAG,1) 
(WOODLAND DESIGN COTTON TOTE BAG,1) 
(WOODLAND DESIGN COTTON TOTE BAG, 6) 
(WOODLAND DESIGN COTTON TOTE BAG,1) 
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(WOODLAND DESIGN COTTON TOTE BAG,2) 
(WOODLAND DESIGN COTTON TOTE BAG,1) 
(WOODLAND DESIGN COTTON TOTE BAG, 6) 
(WOODLAND DESIGN COTTON TOTE BAG,1) 
(WOODLAND DESIGN COTTON TOTE BAG,1) 
(WOODLAND DESIGN COTTON TOTE BAG,12) 
(WOODLAND PARTY BAG + STICKER SET,2) 
(WOODLAND PARTY BAG + STICKER SET,16) 
(WOODLAND PARTY BAG + STICKER SET,1) 
(WOODLAND PARTY BAG + STICKER SET,8) 
(WOODLAND PARTY BAG + STICKER SET,4) 


groupBy0 的 定义 如 下 所 示 : 


/* d 

* Groups a {@link Tuple} {@link DataSet} using field position keys. 

* 

* <p><b>Note: Field position keys only be specified for Tuple 
DataSets.«/b» 

* 

* <p>The field position keys specify the fields of Tuples on which the 
DataSet is grouped. 

* This method returns an {@link UnsortedGrouping} on which one of the 
following grouping transformation 

* can be applied. 

* cul» 

* <1i>{@link UnsortedGrouping#sortGroup (int, 
org.apache.flink.api.common.operators.Order)) to get a {@link 
SortedGrouping]. 

* <1i>{@link UnsortedGrouping#aggregate (Aggregations, int)} to apply an 
Aggregate transformation. 

* <li>{@link 
UnsortedGrouping#reduce (org.apache.flink.api.common.functions.ReduceFu 
nction)) to apply a Reduce transformation. 

* <1i>{@link 
UnsortedGrouping#reduceGroup (org.apache.flink.api.common.functions.GroupRed 
uceFunction)) to apply a GroupReduce transformation. 

5 rey hls 

* 

* Gparam fields One or more field positions on which the DataSet will be 
grouped. 

* (return A Grouping on which a transformation needs to be applied to obtain 
a transformed DataSet. 
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@see Tuple 

@see UnsortedGrouping 

@see AggregateOperator 

@see ReduceOperator 

@see org.apache.flink.api.java.operators.GroupReduceOperator 
@see DataSet 

/ 

public UnsortedGrouping<T> groupBy(int... fields) { 

return new UnsortedGrouping«» (this, new Keys.ExpressionKeys<> (fields, 
getType())); 

} 


*o + FF FH 
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在 某 些 列 应 用 groupByO 之 后 ， 聚 合 操作 将 逻辑 应 用 于 数据 集 的 分 组 行 。groupByO 
接收 用 户 聚 合 行 的 列 索 引 ; 聚合 操作 接收 列 索引 并 执行 聚合 操作 。 

下 列 命令 通过 Description 进行 分 组 ， 并 针对 每 个 Description 添加 Quantities， 最 后 输 
出 前 10 条 记录 ， 如 下 所 示 : 


dataSet.map(x => (x.split(",") (2), x.split(",") (3).toInt)) 
-groupBy (0) 
-sum(1) 
.first(10).print() 


这 将 输出 加 载 后 的 DataSet 的 内 容 , 如 下 所 示 : 


(, 72117) 
(*Boombox Ipod Classic,1) 

(*USB Office Mirror Ball,2) 

(10 COLOUR SPACEBOY PEN, 823) 

(12 COLOURED PARTY BALLOONS,102) 

(12 DAISY PEGS IN WOOD BOX, 62) 

(12 EGG HOUSE PAINTED WOOD, 16) 

(12 IVORY ROSE PEG PLACE SETTINGS, 80) 
(12 MESSAGE CARDS WITH ENVELOPES, 238) 
(12 PENCIL SMALL TUBE WOODLAND, 444) 


下 列 命令 通过 Description 进行 分 组 ,并 针对 每 个 Description 添加 Quantities， 最 后 输 
包含 最 大 Quantity 的 Description, 如 下 所 示 : 


dataSet-map(x => (x-spliTt(™, ")i(2), x-spluit("*,")(3)-tornt)) 
-groupBy (0) 


FF 
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-sum(1) 
-max (1) 
-first(10).print() 


这 将 输出 加 载 后 的 DataSet 的 内 容 ， 如 下 所 示 : 
(reverse 21/5/10 adjustment, 8189) 
类 似 地 , 下 列 命令 通过 Description 进行 分 组 , 并 针对 每 个 Description 添加 Quantities, 


最 后 输出 包含 最 小 Quantity 的 Description， 如 下 所 示 : 


dataSet.map(x => (x.split(",") (2), x.split(",") (3).toInt)) 
-groupBy (0) 
-sum(1) 
-min(1) 
.first(10).print() 


这 将 输出 加 载 后 的 DataSet 的 内 容 , 如 下 所 示 : 
(reverse 21/5/10 adjustment, -7005) 
sum() API 的 定义 如 下 所 示 : 


// private helper that allows to set a different call location name 
private AggregateOperator<T> aggregate (Aggregations agg, int field, String 
callLocationName) { 


return new AggregateOperator<T> (this, agg, field, callLocationName); 
) 
/** 

* Syntactic sugar for aggregate (SUM, field). 

* Gparam field The index of the Tuple field on which the aggregation 
function is applied. 

* (return An AggregateOperator that represents the summed DataSet. 

* 


* Gsee org.apache.flink.api.java.operators.AggregateOperator 

xp 

public AggregateOperator<T> sum (int field) { 

return this.aggregate (Aggregations.SUM, field, 
Utils.getCallLocationName()); 

li 


8.4.5 连接 


首先 读 取 cities.csv 文本 文件 ， 如 下 所 示 : 


val cities = benv.readTextFile("cities.csv") 
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对 应 结果 如 图 8.21 所 示 。 


val cities = benv.readTextFile("cities.csv") 
: org.apache.flink.api.scala.DataSet[String] = org.apache.flink.api.scala.DataSetéebd09a26 


cities. first(10).printQ 
Submitting job with JobID: 4b05ca2711840f76d1a7b7d6799eb781. Waiting for job completion. 
Connected to JobManager at Actor[akka.tcp://flinkelocalhost:6123/user/jobmanagerf-61006016] with lead: 
00000000. 
05/21/2018 15:31:45 Job execution switched to status RUNNING. 
05/21/2018 15:31:45 DataSource (at $line16.$read$S$iw$$iw$$iwS$iwSSiw$Siw$Siw$S$iw$Siw$$iwS$$iw$$iw$! 
w$$iw$$iw$Siw$$iw$S$iw$Siw$$iw$$iw$$iw$$iw$$)(1/1) switched to SCHEDULED 
05/21/2018 15:31:45 DataSource (at $line16.$read$$iw$$iw$$iwS$iwSSiw$SiwSSiwSSiw$$iw$$iwS$$iw$Siw$! 
w$$iw$Siw$SiwS$Siw$Siw$SiwSS$iw$SiwS$iw$$iw$$)(1/1) switched to DEPLOYING 
05/21/2018 15:31:45 DataSource (at $line16.$read$S$iwSSiw$SiwSSiwSSiwSSiwSSiwSSiwSSiw$SiwSSiwSSiwS$! 
w$$iw$Siw$Siw$$iw$Siw$$Siw$Siw$Siw$$iw$$iw$$)(1/1) switched to RUNNING 
05/21/2018 15:31:45 GroupReduce (GroupReduce at org.apache.flink.api.scala.DataSet.first(DataSet.: 
05/21/2018 15:31:45 GroupReduce (GroupReduce at org.apache.flink.api.scala.DataSet.first(DataSet 
05/21/2018 15:31:45 DataSource (at $line16.$read$$iwS$$iw$$iwS$$iw$SiwS$Siw$SiwS$$iw$SiwSSiw$SiwS$$iwS$! 
w$$iwSSiw$SiwSSiw$SiwSSiw$SiwS$SiwSS$iw$$iw$$)(1/1) switched to FINISHED 
05/21/2018 15:31:45 GroupReduce (GroupReduce at org.apache.flink.api.scala.DataSet.first(DataSet.: 
05/21/2018 15:31:45 DataSink (collect())(1/1) switched to SCHEDULED 
05/21/2018 15:31:45 DataSink (collect())(1/1) switched to DEPLOYING 
05/21/2018 15:31:45 GroupReduce (GroupReduce at org.apache.flink.api.scala.DataSet.first(DataSet.:| 
05/21/2018 15:31:45 DataSink (collect())(1/1) switched to RUNNING 
05/21/2018 15:31:45 DataSink (collect())(1/1) switched to FINISHED 
05/21/2018 15:31:45 Job execution switched to status FINISHED 
Id,City 
1,Boston 
2,New York 
3,Chicago 
4,Philadelphia 
5,San Francisco 
7,Las Vegas 


图 8.21 
cities.csv 文本 文件 如 下 所 示 : 
Id,City 
1,Boston 
2,New York 
3,Chicago 
4,Philadelphia 
5,San Francisco 
7,Las Vegas 


随后 读 取 temperatures.csv 文件 , 如 下 所 示 : 


val temp = benv.readTextFile ("temperatures.csv") 


对 应 结果 如 图 8.22 所 示 。 
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> val temp = benv.readTextFile("temperatures.csv") 
: org.apache.flink.api.scala.DataSet[String] = org.apache.flink.api .scala.DataSet63497ecea 


E > temp.first(19).print 0 
Submitting job with JobID: b42267930e15fcc3ed7153e84664bef5. Waiting for job completion. 
Connected to JobManager at Actor[akka.tcp://flink@Localhost :6123/user/jobmanager#-61006016] with 1 
00000000. 
95/21/2918 15:34:19 Job execution switched to status RUNNING. 
95/21/2918 15:34:19 DataSource (at $line22.$read$$iw$Siw$SiwSSiw$SiwSSiwSSiwSSiw$SiwSSiwSSiwS! 
w$SiwSSiw$Siw$Siw$Siw$Siw$Siw$$iwS$iw$$iw$$)(1/1) switched to SCHEDULED 
05/21/2018 15:34:19 DataSource (at $line22.$read$$iw$Siw$$iwSSiw$$iwSSiw$SiwSSiw$$iw$SiwSSiwS! 
WSSiwSSiwSSiwSSiwSSiwSSinS$SiwSSiw$Siw$$iw$$)(1/1) switched to DEPLOYING 
05/21/2018 15. 9 DataSource (at $line2Z2.$readSSiwSSiwSSiwSSiwSSiwSSiwSSiwSSiwSSin$Sin$siwS! 
w$$iw$$iw$$iw$SiwSSiw$Siw$Siw$$iw$$iw$$iw$$)(1/1) switched to RUNNING 
GroupReduce (GroupReduce at org.apache.flink.api.scala.DataSet.first(Data! 
GroupReduce (GroupReduce at org.apache.flink.api .scala.DataSet.first(Datat 
05/21/2018 15. DataSource (at $line22.$read$$iw$SiwS$SiwSSiwS$iw$SiwSSiwSSiw$$iwSSiwSSiwS! 
w$$iw$$iw$$iw$$iwSSiw$Siw$Siw$Siw$$iw$$iw$$)(1/1) switched to FINISHED 
05/21/2018 GroupReduce (GroupReduce at org.apache.flink.api .scala.DataSet.first(Data* 
05/21/2018 DataSink (collect())(1/1) switched to SCHEDULED 
05/21/2018 DataSink (collect())(1/1) switched to DEPLOYING 
95/21/2018 15:34: GroupReduce (GroupReduce at org.apache.flink.api.scala.DataSet.first(Data! 
05/21/2018 DataSink (collect())(1/1) switched to RUNNING 
05/21/2018 DataSink (collect())(1/1) switched to FINISHED 
05/21/2018 15:34: Job execution switched to status FINISHED. 
Date, Id, Temperature 
2018-01-01,1,21 
2018-01-01,2,22 
2018-01-01,3,23 
2018-01-01,4,24 
2018-01-01,5,25 
2018-01-01,6,22 
2018-01-02,1,23 
2018-01-02,2,24 
2018-01-02,3,25 


图 8.22 
temperatures.csv 文件 如 下 所 示 : 


Date, Id, Temperature 
2018-01-01,1,21 
2018-01-01,2,22 
2018-01-01,3,23 
2018-01-01,4,24 
2018-01-01,5,25 
2018-01-01, 6,22 
2018-01-02,1,23 
2018-01-02,2,24 
2018-01-02,3,25 


下面 次 cities.csv 和 temperatures.csv 载 入 DataSet 中 ， 并 移 除 文件 头 ， 如 下 所 示 : 


val cities = benv.readTextFile("cities.csv") 
Bi ltert! Jcontains(?1d,")) 
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val temp = benv.readTextFile ("temperatures.csv") 
siisrteuiticortasnsi(irdym) 
接 下 来 将 DataSet 转换 为 一 个 元 组 DataSet。 其 中 ， 第 一 个 DataSet ( 即 城市 DataSet) 
将 生成 <cityId, cityName> 元 组 ; 第 二 个 DataSet ( 即 温度 DataSet) 生成 <cityId, temperature> 
元 组 ， 如 下 所 示 
val cities2 = cities.map(x => (x.split(",")(0), x.split(",") (1))) 
cities2.first(10).print() 


val temp2 = temp.map(x => (x.split(",") (1), x.split(",") (2))) 
temp2.first(10).print() 


1. 内 部 连接 

内 部 连接 需要 使 用 到 左 、 右 表 以 包含 相同 列 。 如 果 左 表 或 右 表 中 包含 了 重复 键 或 多 
个 键 副本 ， 连 接 操作 将 会 迅速 膨胀 为 笛 卡 儿 连 接 。 相 应 地 ， 计 算 时 间 也 将 随 之 增长 。 内 
部 连接 如 图 8.23 所 示 。 


内 部 连接 


图 8.23 
下 列 代码 展示 了 内 部 连接 的 执行 方式 ， 进 而 连接 两 个 元 组 DataSet. 


cities2.join(temp2) 
. where (0) 
.equalTo (0) 
.first(10).print() 


该 作业 的 输出 结果 显示 了 源 自 两 个 DataSet 的 元 组 ， 其 中 ，cityID 位 于 两 个 DataSet 
中 。 对 应 结果 如 下 所 示 : 


((1,Boston), (1,21)) 
((2,New York), (2,22)) 

( (3p Chicago); (3,23) ) 

((4, Philadelphia), (4,24)) 
((5,San Francisco), (5,25)) 
((1,Boston), (1,23)) 
((2,New York), (2,24)) 
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( (3, Chicago), (3,25) 
((4, Philadelphia), (4,26)) 
((5,San Francisco), (5,18)) 


如 果 使 用 聚合 并 针对 每 所 城市 添加 温度 值 ， 将 得 到 每 所 城市 的 全 部 温度 值 ， 对 应 代 
码 如 下 所 示 : 


cities2 


.join (temp2) 
.where (0) 
.equalTo (0) 
.map(x-» (x. 1. 2, x. 2. 2.toInt)) 
-groupBy (0) 
-sum(1) 
.first(10).print() 
对 应 结果 如 下 所 示 : 
(Boston, 111) 
(Chicago,116) 
(New York,119) 


(Philadelphia,116) 
(San Francisco,113) 


当前 作业 可 在 Flink UI 中 进行 查看 ， 如 图 824 所 示 。 
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join0 API 的 定义 如 下 所 示 : 


[** 
* Initiates a Join transformation. 


* <p>A Join transformation joins the elements of two 

* {@link DataSet DataSets} on key equality and provides multiple ways * 
to combine 

* joining elements into one DataSet. 

* 

* <p>This method returns a {@link JoinOperatorSets} on which one of the 
{@code where} methods 

* can be called to define the join key of the first joining (i.e., * 
this) DataSet. 

* 

@param other The other DataSet with which this DataSet is joined. 
@return A JoinOperatorSets to continue the definition of the Join 
transformation. 


* + + +*+ 


@see JoinOperatorSets 

* @see DataSet 

EU 

public «R» JoinOperatorSets«T, R» join(DataSet«R» other) ( 
return new JoinOperatorSets«» (this, other); 


} 


2. 左 外 连接 


除了 两 个 表 中 的 公共 行 之 外 〈 内 连接 ) ， 左 外 连接 生成 左 表 中 的 全 部 行 。 如 果 两 个 表 
中 的 公共 行 较 少 ， 最 终结 果 将 十 分 庞大 ， 因 而 性 能 也 相对 低下 。 左 外 连接 如 图 8.25 所 示 。 


左 外 连接 
左 表 右 表 
图 8.25 
下 面 将 执行 左 外 连接 ， 进 而 连接 两 个 元 组 DataSet, 如 下 所 示 : 


cities2 
-leftOuterJoin(temp2) 
-Where (0) 
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-equalTo(0) { 


(x,y) >> (x, if (y--null) (x- 1,0) else (x: 1, y--2-toInt)) 
) 
map(x=> (x. 1. 2, x 
-groupBy (0) 
- Sum (1 ) 
-first(10).print() 


NONO toT E) 


该 作业 的 输出 结果 展示 了 源 自 两 个 DataSet 中 的 元 组 。 其 中 ，cityID 位 于 左 表 或 两 个 
DataSet 中 , 如 下 所 示 : 


(Boston, 111) 

(Chicago, 116) 

(Las Vegas,0) // Las vegas has no records in temperatures DataSet so 
is assigned 0 

(New York,119) 

(Philadelphia, 116) 

(San Francisco,113) 


当前 作业 可 在 Flink UI 中 进行 查看 ， 如 图 8.26 所 示 。 
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leftOuterJoin() API 的 定义 如 下 所 示 : 
/ k*k 


* Initiates a Left Outer Join transformation. 
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* 


* «p»An Outer Join transformation joins two elements of two 

* {@link DataSet DataSets} on key equality and provides multiple ways * 
to combine 

* joining elements into one DataSet. 

* 

* <p>Elements of the <b>left</b> DataSet (i.e. {@code this}) that do * 
not have a matching 

* element on the other side are joined with {@code null) and emitted * 
the resulting DataSet. 


ct 
o 


@param other The other DataSet with which this DataSet is joined. 
Greturn A JoinOperatorSet to continue the definition of the Join 
transformation. 


@see 

org.apache.flink.api.java.operators.join.JoinOperatorSetsBase 

@see DataSet 
/ 

public <R> JoinOperatorSetsBase<T, R> leftOuterJoin(DataSet<R> other) { 
return new JoinOperatorSetsBase<>(this, other, JoinHint.OPTIMIZER CHOOSES, 
JoinType.LEFT OUTER); 

) 


3. 右 外 连接 

右 外 连接 生成 右 表 中 的 全 部 行 ， 以 及 左 、 右 表 中 的 公共 行 〈 内 连接 ) 。 据 此 ， 可 得 
到 右 表 中 的 所 有 行 , 以 及 左 、 右 表 中 的 公共 行 。 如 果 左 表 中 不 存在 对 应 内 容 , 则 填写 NULL。 
右 外 连接 的 性 能 类 似 于 之 前 提 到 的 左 外 连接 。 右 外 连接 如 图 8.27 所 示 。 


* RO XX X RO X OK 


右 外 连接 
左 表 右 表 
图 8.27 
下 面 执行 右 外 连接 ， 进 而 连接 两 个 元 组 DataSet， 如 下 所 示 : 


cities2 
-rightOuterJoin (temp2) 
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- where ( 0) 
-equalTo(0) { 


(x,y) => (if (x--null) (y. 1,"unknown") else (y. 1, x. 2), y) 
) 


—mapix-cwxced- 27 AA Tu) 
-groupBy (0) 

-Sum (1 ) 

-first(10).print() 


该 作业 输出 显示 了 源 自 两 个 DataSet 的 元 组 , 其 中 , cityID 位 于 右 表 或 者 两 个 DataSet 
中 , 如 下 所 示 : 

(Boston, 111) 

(Chicago, 116) 

(New York,119) 

(Philadelphia, 116) 

(San Francisco,113) 


(unknown, 44) . // note that only right hand side temperatures DataSet //hasid 
6 which is not in cities DataSet 


当前 作业 可 在 Flink UI 中 进行 查看 ， 如 图 8.28 所 示 。 


Jocahost 


Fink Java Job at Tue May 22 17:06:31 EDT 2018 


图 8.28 


rightOuterJoin() API 的 定义 如 下 所 示 : 
/ 类 类 


* Initiates a Right Outer Join transformation. 
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* 


* <p>An Outer Join transformation joins two elements of two 

* {@link DataSet DataSets} on key equality and provides multiple ways * 
to combine 

* joining elements into one DataSet. 

* 

* <p>Elements of the <b>right</b> DataSet (i.e. {@code other} ) that * do 
not have a matching 

* element on {@code this} side are joined with {@code null) and emitted 


.apache.flink.api.java.operators.join.JoinOperatorSetsBase 
Gsee DataSet 


* to the resulting DataSet. 

* 

* Gparam other The other DataSet with which this DataSet is joined. 
* @return A JoinOperatorSet to continue the definition of the Join 
* transformation. 

* 

* @see 

* 

* 


WA 

public <R> JoinOperatorSetsBase<T, R> rightOuterJoin(DataSet<R> other) ( 
return new JoinOperatorSetsBase<> (this, other, JoinHint.OPTIMIZER CHOOSES, 
JoinType.RIGHT OUTER); 

ji 


4. 全 外 连接 

全 外 连接 生成 连接 子 句 左 、 右 表 中 的 全 部 行 ( 匹 配 和 不 匹配 的 ) 。 当 需要 保留 两 个 表 中 
的 所 有 行 时 ， 可 使 用 全 外 连接 。 当 一 个 表 中 存在 匹配 项 时 ， 全 外 连接 返回 所 有 行 。 如 果 两 个 
表 中 的 公共 行 较 少 ， 最 终结 果 将 十 分 庞大 ， 因 而 性 能 也 相对 低下 。 全 外 连接 如 图 8.29 所 示 。 


全 外 连接 


图 8.29 
下 面 执行 全 外 连接 ， 并 连接 两 个 元 组 的 DataSet， 如 下 所 示 : 


cities2 
-fullOuterJoin (temp2 ) 
- where (0) 
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-equalTo(0) { 
(x,y) => (if (x—null) (y. 1,"unknown") else (x. 1, x. 2), 
if (y--null) (x 10) elses REO) 
) 
-map(x-- (x.-1.-2, x. 2- 2-toInt)) 
-groupBy(0) 
-sum(1) 
-first(10).print() 


该 作业 的 输出 结果 显示 了 源 自 两 个 DataSet 的 元 组 ， 其 中 ，cityID 位 于 两 个 DataSet 
(或 之 一 ) 中 , 如 下 所 示 : 

(Boston, 111) 

(Chicago, 116) 

(Las Vegas,0) // Las vegas has no records in temperatures DataSet so is 

assigned 0 

(New York, 119) 

(Philadelphia, 116) 

(San Francisco,113) 


(unknown, 44) // note that only right hand side temperatures DataSet has id 
6 which is not in cities DataSet 


当前 作业 可 在 Flink UI 中 进行 查看 ， 如 图 8.30 所 示 。 
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图 8.30 
fullOuterJoin() API 的 定义 如 下 所 示 : 


“212% 
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/** 


* 


* 


* 


ct 
o 


* ORO OR OR OR HF HH HH 


En 


Initiates a Full Outer Join transformation. 


<p>An Outer Join transformation joins two elements of two 
{@link DataSet DataSets} on key equality and provides multiple ways * 
combine joining elements into one DataSet. 


<p>Elements of <b>both</b> DataSets that do not have a matching 
element on the opposing side are joined with {@code null} and emitted 
to the resulting DataSet. 


Gparam other The other DataSet with which this DataSet is joined. 
Greturn A JoinOperatorSet to continue the definition of the Join 
transformation. 


Gsee org.apache.flink.api.java.operators.join.JoinOperatorSetsBase 
@see DataSet 


public <R> JoinOperatorSetsBase<T, R> fullOuterJoin (DataSet<R> other) { 
return new JoinOperatorSetsBase«» (this, other, JoinHint.OPTIMIZER CHOOSES, 
JoinType.FULL OUTER); 


) 


8.4.6 


写 入 文件 


数据 接收 器 使 用 、 存 储 并 返回 DataSet。 相 应 地 ， 数 据 接收 器 操作 通过 OutputFormat 
予以 描述 。Flink 中 包含 了 各 种 内 建 输出 格式 ， 并 封装 在 DataSet 上 的 操作 之 后 ， 如 下 所 示 。 


口 


口 


口 
口 


口 


writeAsTextO/TextOutputFormat: 作为 字符 串 逐 行 写 入 元 素 。 另 外 ， 字 符 串 通过 
调用 每 个 元 素 的 toString0 方 法 而 得 到 。 

writeAsCsv(...)/CsvOutputFormat: 作为 以 逗号 分 隔 的 数值 文件 写 入 元 组 。 同 时 ， 
行 和 字段 分 隔 符 均 可 配置 。 每 个 字段 的 数值 源 自 对 象 的 toSring0 方 法 。 
printO/printToErr(): 在 标准 输出 /错误 流 中 输出 每 个 元 素 的 toString0 值 。 
write()/FileOutputFormat: 自 定 义 文件 输出 的 方法 和 基 类 。 支 持 自 定义 对 象 到 字 
节 的 转换 。 

output()/OutputFormat: 对 于 非 文 件数 据 接收 器 (例如 , 将 结果 存储 于 数据 库 中 )， 
最 为 通用 的 输出 方法 。 


下 面 尝 试 将 城市 和 温度 值 的 内 连接 结果 通过 writeAsTextO 写 入 某 个 文件 中 。 


Qi. 
在 调用 benv.execute() 之 前 不 会 看 到 任何 输出 结果 。 
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首先 针对 城市 和 温度 值 的 内 连接 创建 一 个 DataSet, 如 下 所 示 : 


val results = cities2 
.join (temp2) 
.where (0) 
-equalTo (0) 
Emapx-— x T m MEE COPIE) 
-groupBy (0) 
-Sum (1 ) 


随后 ， 在 结果 DataSet 上 调用 writeAsText0， 并 调用 DataSink 上 的 execute), 如 下 所 示 : 


results.writeAsText ("file:///Users/sridharalla/flink-1.4.2/results.txt"). 
setParallelism(1) 
benv.execute () 


若 打开 刚刚 生成 的 文件 ， 将 会 看 到 下 列 代码 显示 的 连接 操作 结果 : 


(Boston,111) 
(Chicago,116) 

(New York,119) 
(Philadelphia, 116) 
(San Francisco,113) 


当前 作业 可 在 Flink UI 中 进行 查看 ， 如 图 8.31 所 示 。 


Fink Java Job at Tue May 22 16:58:13 EDT 2018 


ovevew 


Suotesks 
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图 8.31 
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85 本 章 小 结 


本 章 讨论 了 Apache Flink， 以 及 如 何 使 用 Flink 在 大 数据 上 执行 批 处 理 分 析 。 除 此 之 
外 , 本 章 还 学 习 了 Flink 及 其 内 部 工作 机 制 。 接 下 来 , 本 章 介 绍 了 数据 的 加 载 和 分 析 方 法 ， 
进而 执行 转换 和 聚合 操作 。 最 后 ， 我 们 还 探讨 了 如 何在 大 数据 上 执行 Join 操作 。 


第 9 章 将 利 


Apache Flink 进行 实时 数据 分 析 。 


第 9 章 Apache Flink ARANE 


本 章 介 绍 Apache Flink 流 式 处 理 ， 以 及 如 何 利 用 该 框架 在 构建 实时 应 用 程序 时 处 理 

数据 。 本 章 首先 讨论 DataStream API， 并 考查 各 类 执行 操作 。 
本 章 主要 涉及 以 下 主题 : 

基于 DataStream API 的 数据 处 理 机 制 。 

转换 。 

聚合 。 

窗口 操作 。 

物理 分 区 。 

调整 数据 尺度 。 

数据 接收 器 。 

事件 时 间 和 水 印 。 

Kafka 连接 器 。 

Twitter 连接 器 。 

Elasticsearch 连接 器 。 

Cassandra 连接 器 。 


9.1 流 式 执行 模型 简介 


ロロ ロロ ロロ ロロ ロロ ロロ 


Flink 是 针对 分 布 式 流 式 处 理 的 一 个 开源 框架 ， 其 特征 如 下 所 示 : 
ロ 提供 了 准确 的 结果 ， 即 使 对 无 序 或 后 期 到 达 的 数据 也 是 如 此 。 
口 具有 “有 状态 ”和 容错 特性 ， 当 维护 “ 仅 一 次 ”应 用 程序 状态 时 ， 可 无 颖 地 从 
故障 中 恢复 。 
口 ” 适 合 大 规模 场合 ， 可 运行 于 数 千 个 节点 上 ， 且 具有 较 好 的 吞吐 量 和 延迟 性 。 
图 9.1 显示 了 流 式 处 理 的 整体 示意 图 。 
当 在 无 界 数据 集 上 获取 准确 的 结果 时 ，Flink 的 相关 特性 不 可 或 缺 ， 包 括 状态 管理 、 
处 理 无 序数 据 、 灵 活 的 窗口 机 制 ， 具 体 如 下 : 
口 对 于 有 状态 计算 来 说 ，Flink 可 保证 “ 仅 一 次 ”语义 。 这 里 ，“ 有 状态 ”意味 着 
应 用 程序 可 维护 一 段 时 间 以 来 所 处 理 数据 的 聚合 或 汇总 结果 ; 而 对 于 故障 事件 
中 的 应 用 程序 状态 ，Flink 检查 点 机 制 保障 了 “ 仅 一 次 ”语义 ， 如 图 9.2 所 示 。 
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消息 传输 系统 


图 9.2 
Q Flink 支持 流 式 处 理 和 基于 事件 时 间 语 义 的 窗口 机 制 。 事 件 时 间 可 针对 数据 流 计 
算 准确 的 结果 。 其 中 ， 事 件 以 无 序 状 态 到 达 且 存在 延迟 现象 ， 如 图 9.3 所 示 。 


图 9.3 


O ”除了 数据 驱动 窗口 之 外 , Flink 还 可 根据 时 间 、 计 数 或 会 话 支持 灵活 的 窗口 机 制 。 
利用 灵活 的 触发 条 件 , 可 对 窗口 进行 自 定义 , 进而 支持 更 加 高 级 的 流 模式 。 Flink 
的 窗口 机 制 可 对 创建 数据 的 真实 环境 进行 建 模 ， 如 图 9.4 所 示 。 

T Fink 的 容错 机 制 是 轻 量 级 的 ， 允 许 系统 保持 高 乔 吐 量 ， 并 提供 “ 仅 一 次 ”一 到 
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性 保障 。 Flink 可 在 不 损失 数据 的 前 提 下 从 故障 中 恢复 ， 而 可 靠 性 和 延迟 之 间 的 
权衡 是 可 以 忽略 的 ， 如 图 9.5 所 示 。 


图 9.5 


Q Flink 支持 高 吞吐 量 和 低 延 迟 〈 也 就 是 说 ， 可 快速 处 理 大量 的 数据 ) 。 

O Flink 的 保存 点 提供 了 状态 版 本 机 制 ， 进 而 可 更 新 应 用 程序 ， 或 者 在 不 丢失 状态 
以 及 最 小 停机 时 间 的 情况 下 重新 处 理 历史 数据 。 

O Flink 的 设计 目标 是 在 包含 数 千 个 节点 的 大 规模 集群 上 运行 ， 除 了 独立 的 集群 节 
点 之 外 ，Flink 还 提供 了 YARN 和 Mesos 方面 的 支持 。 


92 利用 DataStream API 进行 数据 处 理 


健壮 的 分 析 机 制 对 于 实时 数据 的 处 理 十 分 重要 ， 对 于 数据 驱动 的 领域 来 说 尤其 如 此 。 
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对 此 ，Flink 可 通过 DataStream API 执行 实时 分 析 。 这 种 流 式 数 据 处 理 API 适用 于 物 联 网 
应 用 程序 ， 进 而 存储 、 处 理 和 分 析 实 时 (或 接近 于 实时 ) 数据 。 
接 下 来 将 分 析 与 DataStream API 相关 的 每 种 元 素 ， 其 中 包括 : 
执行 环境 。 
转换 。 
数据 接收 。 
连接 器 。 


9.2.1 执行 环境 


当 编写 Flink 程序 时 ， 需 要 建立 相应 的 执行 环境 。 对 此 ， 可 使 用 现 有 的 环境 或 者 构建 
新 环境 。 

根据 具体 需求 条 件 ，Flink 可 分 別 使用 現有 的 Flink 环境 、 创 建 本 地 环境 或 者 创建 远 
程 环境 。 

采用 getExecutionEnvironmentO 命 令 可 根据 具体 需要 实现 不 同 任务 ， 具 体 如 下 : 

口 在 IDE 中 ， 当 在 本 地 环境 中 执行 时 ，Flink 将 启动 本 地 执行 环境 。 
当 执 行 JAR 时 ，Flink 集群 管理 器 将 以 分 布 方 式 运行 程序 。 
当 创 建 自己 的 本 地 或 远程 环境 时 ， 可 采用 createLocalEnvironment() 和 
createRemoteEnvironment 这 一 类 方法 (相关 参数 包含 字符 串 形式 的 主机 名 、int 
类 型 的 端口 、 字 符 串 和 .jar 文件 ) 。 


9.22 数据 源 


Flink 可 以 从 不 同 的 数据 源 处 获取 数据 ， 其 中 定义 了 许多 内 建 源 函数 ， 从 而 可 无 颖 地 
获取 数据 ，Flink 中 的 一 些 预 先 实现 的 数据 源 函 数 可 对 这 一 过 程 予以 简化 。 此 外 ， 当 现 有 
函数 无 法 满足 数据 源 的 要 求 时 ，Flink 支持 自 定义 数据 源 函 数 的 编写 。 

读者 可 访问 https://ci.apache.org/projects/flink/flink-docs-release-1.4/dev/datastream api. 
html， 以 查看 DataStream API 的 相关 文档 。 

Flink 中 一 些 现 有 的 数据 源 函 数 包括 : 

口 基于 套 接 字 的 数据 源 。 

QO 基于 文件 的 数据 源 。 

1， 基 于 套 接 字 的 数据 源 


DataStream API 支持 套 接 字 的 读 取 ， 下 列 代码 片段 展示 了 简单 的 流 式 API 示例 : 


ロロ ロロ ロ 


口 
口 
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// Data type for words with count 
case class WordWithCount (word: String, count: Long) 
// get input data by connecting to the socket 
val text = senv.socketTextStream("127.0.0.1", 9000, 'Mn') 
// parse the data, group it, window it, and aggregate the counts 
val windowCounts = text 
-flatMap | w => w.split("\\s") } 
-map { w => WordWithCount(w, 1) } 
- keyBy ("word") 
.timeWindow(Time.seconds(5), Time.seconds (1) ) 
.sum ("count") 
// print the results with a single thread, rather than in parallel 
windowCounts.print().setParallelism(1) 
senv.execute ("Socket Window WordCount") 


上 述 代 码 连接 至 本 地 主机 的 9000 端口 上 ， 检 索 并 处 理 文本 数据 ， 将 字符 串 划分 为 独 
立 的 单词 〈 此 处 采用 空格 加 以 分 隔 ) 。 deg 代码 将 在 5 秒 的 窗口 中 计算 单词 的 出 现 频 
率 ， 并 对 此 予以 输出 。 

当 运 行 上 述 示例 时 ， 需 要 使 用 到 Flink 的 Scala Shell， 如 图 9.6 所 示 。 


Moogie:flink-1.4.2 sridharallas ./bin/stort-scala-shell.sh remote localhost 6123 

Starting Flink Shell 

log4j:WARN No appenders could be found for logger (org. apache. flink.configuration.GlobalConfi guration) 
1og4}:WARN PL initialize the log4j system properly. 

log4j:WARN See http: //logging.apache.org/1094;/1.2/faq.htmlánoconfig for more info 


Connecting to Flink cluster (host: localhost, port: 6123) 


图 9.6 
E 任 意 Linux 系统 中 运行 nc 命令 ， 进 而 启动 本 地 服务 器 ， 如 图 9.7 所 示 。 


Moogi: idharalla$ nc -1 9000 


图 9.7 
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在 Shell 中 运行 代码 ， 连 接 至 端口 9000 并 监听 数据 ， 9.8 所 示 。 


Data type for words with 
case class WordWithCount(word: String, count: Long) 


get input data by g to the soc 
val text = senv.socketTextStream("127.0.0.1", 


parse the data, group it, window it, and ag. 
val windonCounts 
flatMap { w => v "\\s") } 


than in porallel 


Exiting paste mode, now interpreting 


Submitting job with JobID: S57deeac32d01c1061ff4b558b! y 
Connected g ka.tcp://flini A with leader ion id 00000000-0000-0000-0000 
0000000000 
4/29/2018 21:19 xecution switched to status RUNNING 
ket Stream(1/1) CHEDULED 
) switched to SCHEDULED 
Ns(5009,1999) 
1 いい 3 いい 】 

on$16895bd ink.streaming. opi . functic i atori ebef}, Proce 
t : 2 itched to SCHEDULED 


图 9.8 
ziri Web 控制 台中 的 当前 作业 。 


localhost. 9081/s/iobs/557dee 


图 9.9 显示 了 


PESE De 


Overview 


Subtasks 


Aggregate task statstice by TaskManager 


2018-04-29, 2018-04-29, hm 53s 
211957 — 212450 


2018-04-29, 2018-04-29, 4ms3s Flat Map -> Map 
211957 212450 


图 9.9 
在 图 9.10 中 ， 可 进一步 理解 当前 所 执行 的 任务 。 
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© localhost B081/s/jons/S: 


a Apache Fink Dashboard Socket Window WordCount 


a 


z 


Timeine 


E) 


Source: Socket Stream 

Fat Map -> Map 

“TiggerWindow(StciingProcessing TimeWindows(S000, 1000), ReducingStateDescriptor[seriatzer-SineT9 Sread$SiwSSiwSSiwSSiw$SiwSSinSSiSSiwSSiwSSimS$in$SiwSSinSSinS$inSSiWS 
Sink: Unnamed 


‘000 ‘000 00 000 Eo 00 000 000 000 
20:00 212030 212100 21:21:30 212200 212230 212300 212330 212400 2243€ 


图 9.10 
在 将 文本 数据 输入 nc 服务 器 控制 台 时 ， 即 可 在 log 文件 夹 中 看 到 输出 结果 。 
在 当前 示例 中 ， 可 以 看 到 taskmanager 的 日 志 文 件 (log 文件 ) ， 如 下 所 示 : 
tail -f log/flink-sridharalla-taskmanager-1-Moogie.local.out 
图 9.11 是 跟踪 日 志文 件 时 将 看 到 的 内 容 。 


WordWithCountChellow,1) 
WordWithCountChellow, 1) 


WordWi thCount(world, 1) 
a 


图 9.11 
在 介绍 了 上 述 示例 代码 后 ， 接 下 来 考查 套 接 字 数据 流 的 API 
API 中 定义 了 主机 名 称 和 端口 号 ， 进 而 可 从 套 接 字 中 读 取 数 据 ， 如 下 所 示 : 
socketTextStream(hostName, port); 
除 此 之 外 ， 还 可 进一步 定义 分 隔 符 ， 如 下 所 示 : 
socketTextStream(hostName, port, delimiter) 
同时 ， 还 可 指定 API 从 套 接 字 中 读 取 数 据 的 最 大 次 数 ， 如 下 所 示 : 
socketTextStream(hostName,port,delimiter, maxRetry) 
2. 基于 文件 的 数据 源 


HE Flink 中 采用 基于 文件 的 源 函 数 时 ， 可 使 用 readTextFile(String pathb)。 默 认 条 件 
字符 串 路 径 涵 盖 了 默认 值 TextInputFormat， 不 是 逐 行 读 取 文 本 和 字符 串 。 
如 果 文 件 格式 与 文本 不 同 ， 可 使 用 下 列 函数 指定 格式 : 


readFile(FileInputFormat«Out» inputFormat, String path) 
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当 使 用 readFileStream0O 函 数 时 ，Flink 可 以 读 取 产 生 的 文件 流 ， 如 下 所 示 : 

readFileStream(String filePath, long intervalMillis, 

FileMonitoringFunction.WatchType watchType) 

其 中 包含 了 文件 路 径 、 轮 询 文件 路 径 的 时 间 间 隔 以 及 监视 类 型 。 这 里 ， 监 视 类 型 包 

含 以 下 3 种 情况 。 

Q FileMonitoringFunction. WatchType. ONLY NEW FILES: 仪 处 理 新 文件 。 

Q FileMonitoringFunction. WatchType.PROCESS ONLY APPENDED: 仅 用 于 处 理 
附加 的 文件 内 容 。 

QU FileMonitoringFunction. WatchType.REPROCESS WITH APPENDED: 不 仅 处 理 
附加 的 文件 内 容 ， 还 包括 文件 中 之 前 的 内 容 。 

如 果 文 件 并 不 是 文本 文件 ， 那 么 ， 可 使 用 该 函数 定义 文件 输入 格式 ， 如 下 所 示 ; 


readFile(fileInputFormat, path, watchType, interval, pathFilter, 
typeInfo) 


该 命令 将 读 取 文 件 任务 划分 为 两 项 子 任务 : 
ロ ”第 一 项 子 任务 仅 根据 指定 的 WatchType 监视 文件 路 径 。 
口 第 二 项 子 任务 以 并 行 方式 执行 实际 的 文件 读 取 操作 。 


9.23 转换 


数据 转换 将 数据 从 一 种 形式 转换 为 男 一 种 形式 。 其 中 ， 输 入 内 容 可 以 是 一 个 或 多 个 
数据 流 ， 而 输出 内 容 则 可 以 是 0 个 、1 个 或 多 个 数据 流 。 下 面 将 考查 不 同 的 转换 行为 。 

1. map 

这 是 最 简单 的 转换 ， 其 中 ， 输 入 内 容 表 示 为 一 个 数据 流 ;， 输出 内 容 同 样 为 一 个 数 

在 Java 中 ，map 的 定义 如 下 所 示 : 

inputStream.map (new MapFunction<Integer, Integer>() { 


@Override 
public Integer map(Integer value) throws Exception { 


return 5 * value; 
} 
We 


在 Scala 中 ， 其 定义 方式 如 下 所 示 : 


inputStream.map { x => x * 5 } 
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2. flatMap 
flatMap 接收 一 条 记录 作为 输入 ， 并 生成 0 个 、1 个 或 多 条 记录 。 
在 Java 中 , flatMap 的 定义 如 下 所 示 : 


inputStream.flatMap(new FlatMapFunction<String, String»() { 
@Override 
public void flatMap(String value, Collector<String> out) 
throws Exception { 

for(String word: value.split(" "))( 

out.collect (word); 

) 

We 


在 Scala 中， 其 定义 如 下 所 示 : 


inputStream.flatMap { str => str.split(" ") } 


3. filter 
filter 函数 计算 相关 条 件 ， 并 根据 所 满足 的 条 件 生成 输出 记录 。 


Qz: 
除 此 之 外 ，filter 也 可 生成 0 条 记录 


在 Java 中 , filter 的 定义 如 下 所 示 : 


inputStream.filter(new FilterFunction<Integer>() { 


@Override 
public boolean filter(Integer value) throws Exception { 
return value != 1; 


} 
Ja 


在 Scala 中 ， 其 定义 如 下 所 示 : 


inputStream.filter ( _ != 1] 

4. keyBy 

keyBy 根据 对 应 键 在 逻辑 上 对 数据 流 分 区 ， 并 采用 hush 函数 进行 分 区 ， 同 时 返回 
KeyedDataStream. 


在 Java 中 ，keyBy 的 定义 如 下 所 示 : 


inputStream.keyBy ("someKey"); 
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在 Scala 中 ， 其 定义 如 下 所 示 : 


inputStream.keyBy ("someKey") 


5. reduce 
下 列 代码 展示 了 reduce 的 求 和 计算 。 
在 Java 中 ， 其 定义 方式 如 下 所 示 : 


keyedInputStream. reduce (new ReduceFunction<Integer>() { 


@Override 
public Integer reduce(Integer valuel, Integer value2) 
throws Exception { 
return valuel + value2; 
} 
n; 


在 Scala 中 ， 其 定义 方式 如 下 所 示 : 


keyedInputStream. reduce { _ +  ] 

6. fold 

利用 当前 记录 整合 最 后 一 个 fold 的 数据 流 ，fold 将 生成 KeyedDataStream， 并 返回 数 
据 流 。 


在 Java 中 , fold 的 实现 方式 如 下 所 示 : 


keyedInputStream keyedStream.fold("Start", new 
FoldFunction<Integer,String>() { 
@Override 
public String fold(String current, Integer value) { 
return current + "=" + value; 
} 
We 


在 Scala 中 ， 其 实现 如 下 所 示 : 

keyedInputStream.fold("Start") ((str, i) => ( str + "=" + i }) 

在 上 述 函数 中 ， 对 于 数据 流 (1,2,3,4,5)， 将 生成 Start=-1=2=3=4=5 。 

7. 聚合 

DataStream API 支持 各 种 聚合 操作 ， 例 如 min. max. sum 等 。 这 一 类 函数 可 应 用 于 
KeyedDataStream 上 , 在 Java 中 ， 其 实现 方式 如 下 所 示 : 
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keyedInputStream.sum(0) 
keyedInputStream.sum("key") 
keyedInputStream.min (0) 
keyedInputStream.min ("key") 
keyedInputStream.max (0) 
keyedInputStream.max ("key") 
keyedInputStream.minBy (0) 
keyedInputStream.minBy ("key") 
keyedInputStream.maxBy (0) 
keyedInputStream.maxBy ("key") 


在 Scala 中 ， 其 实现 方式 如 下 所 示 : 


keyedInputStream.sum(0) 

keyedInputStream.sum("key") 

keyedInputStream.min (0) 

keyedInputStream.min ("key") 

keyedInputStream.max (0) 

keyedInputStream.max ("key") 

keyedInputStream.minBy (0) 

keyedInputStream.minBy ("key") 

keyedInputStream.maxBy (0) 

keyedInputStream.maxBy ("key") 

max 和 maxBy 之 间 的 差别 在 于 ，max 返回 数据 流 中 的 最 大 值 ; maxBy 则 返回 包含 最 
大 值 的 一 个 键 。 同 样 ， 这 一 差别 也 体现 于 min 和 minBy 中 。 

8. window 


window 函数 可 根据 时 间或 其 他 条 件 对 现 有 KeyedDataStreams 进行 分 组 。 下 列 转换 根 
据 10 秒 的 时 间 窗 口 生 成 记录 分 组 。 
在 Java 中 ， 其 实现 方式 如 下 所 示 : 


inputStream.keyBy (0) .window (TumblingEventTimeWindows.of (Time.seconds (10))) ; 


在 Scala 中 ， 其 实现 方式 如 下 所 示 : 


inputStream. keyBy (0) .window (TumblingEventTimeWindows.of (Time.seconds (10))) 


Flink 定义 了 称 为 窗口 的 数据 片 来 处 理 潜在 的 无 限 数据 流 。 

这 有 助 于 使 用 转换 处 理 数据 块 。 对 于 数据 流 上 的 窗口 机 制 ， 可 指定 一 个 键 ， 并 在 此 
键 上 进行 分 发 ， 同 时 定义 一 个 函数 ， 该 函数 描述 在 窗口 数据 流 上 执行 哪些 转换 。 

当 把 数据 流 分 片 至 窗口 中 时 ， 可 使 用 预先 实现 的 Flink 分 配器 ， 并 选取 滚动 窗口 、 滑 
动 窗口 以 及 全 局 和 会 话 窗口 等 选项 。 
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通过 扩展 WindowAssigner 类 ，Flink 还 可 编写 自 定义 窗口 分 配器 。 

下 面 考查 分 配器 的 工作 方式 。 

(1) 全 局 窗口 

除非 由 触发 器 指定 ， 和 否则， 全 局 窗口 是 一 种 不 间断 的 窗口 。 通 常情 况 下 ， 每 个 元 素 
被 分 配给 一 个 全 局 窗口 (每 个 键 ) 。 如 果 不 指定 任何 触发 器 ， 则 不 会 触发 计算 。 

(2) 滚动 窗口 

滚动 窗口 是 一 种 固定 长 度 的 窗口 ， 且 不 存在 重 登 。 通 过 滚动 窗口 ， 可 在 特定 时 间 点 
执行 元 素 计算 。 例 如 ， 一 个 10 分 钟 的 滚动 窗口 可 以 用 来 计算 10 分 钟 内 发 生 的 一 组 事件 。 

(3) 滑动 窗口 

滑动 窗口 与 深 动 窗口 十 分 类 似 ， 唯 一 的 差别 在 于 ， 滑 动 窗口 处 于 重合 状态 。 滑 动 窗 
口 也 是 固定 长 度 的 窗口 。 通 过 用 户 给 定 的 窗口 滑动 参数 与 上 一 个 滑动 窗口 重 车 。 

通过 该 窗口 机 制 ， 可 从 特定 时 间 帧 中 出 现 的 一 组 事件 中 执行 相关 计算 。 

(4) 会 话 窗口 

当 需 要 根据 输入 数据 确定 窗口 边界 时 ， 会 话 窗口 十 分 有 用 。 在 窗口 起 始 时 间 和 窗口 
尺寸 方面 ， 会 话 窗口 提供 了 较 大 的 灵活 性 。 

会 话 间隙 配置 参数 是 指 ， 会 话 视 为 关闭 之 前 的 等 待 时 间 。 

9. windowAll 


windowAll 函数 支持 常规 数据 类 的 分 组 机 制 。 鉴于 运行 于 未 分 区 的 数据 流 上 ， 因 而 该 
过 程 通常 是 一 类 非 并 行 数据 转换 。 在 Java 中 ， 其 定义 方式 如 下 所 示 : 


inputStream.windowAll (TumblingEventTimeWindows. of (Time.seconds (10))); 


在 Scala 中 ， 其 定义 方式 如 下 所 示 : 

inputStream.windowAll (TumblingEventTimeWindows. of (Time.seconds (10))) 

窗口 数据 流 函数 与 常规 的 数据 流 函数 较为 类 似 ， 唯 一 的 差别 在 于 ， 前 者 工作 于 窗口 
数据 流 上 。 因 此 ， 窗 口 的 reduce 行为 类 似 于 reduce 函数 ; 窗口 的 fold 行为 类 似 于 fold rh 
数 。 除 此 之 外 ， 还 存在 相应 的 聚合 操作 。 

10. union 

union 函数 执行 两 个 或 多 个 数据 流 的 合并 操作 ， 并 以 并 行 方式 整合 数据 流 。 如 果 数 据 
流 自身 进行 合并 ， 将 输出 每 条 记录 两 次 。 在 Java tH, union 的 定义 方式 如 下 所 示 : 


inputStream. union(inputStreaml, inputStream2, ...); 
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在 Scala 中 , union 的 定义 如 下 所 示 : 


inputStream. union(inputStreaml, inputStream2, ...) 


11. 窗口 的 join 

通过 公共 窗口 中 的 一 些 键 连接 两 个 数据 流 。 下 列 示例 显示 了 5 秒 窗口 中 两 个 数据 流 
的 连接 操作 ， 其 中 ， 第 一 个 数据 流 的 第 一 个 属性 的 连接 条 件 等 于 另 一 个 数据 流 的 第 二 个 
条 件 。 在 Java 中 ， 其 实现 方式 如 下 所 示 


inputStream. join(inputStreaml) 

-where (0) . equa1To (1) 

-window (TumblingEventTimeWindows.of (Time.seconds (5) ) ) 
-apply (new JoinFunction () {...})7 


TE Scala 中 ， 其 实现 方式 如 下 所 示 : 


inputStream. join(inputStreaml) 

-where (0) .equalTo (1) 

.window (TumblingEventTimeWindows. of (Time.seconds (5) ) ) 
-apply ( ... } 


12. split 
使 用 该 函数 可 将 数据 流 根据 某 种 标准 划分 为 两 个 或 多 个 数据 流 。 当 获取 混合 数据 流 
并 需要 单独 处 理 数 据 时 ， 这 将 十 分 有 用 。 在 Java 中 ， 其 实现 方式 如 下 所 示 : 


SplitStream<Integer> split = inputStream.split (new 
OutputSelector<Integer>() { 

@Override 

public Iterable<String> select (Integer value) { 
List<String> output = new ArrayList<String>(); 
if (value $ 2 = 0) { 

output.add ("even"); 

) 

else ( 

output.add ("odd"); 

) 

return output; 

) 

Da 


在 Scala 中 ， 其 实现 方式 如 下 所 示 : 
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val split = inputStream.split( (num: Int) =>(num % 2) match ( 
case 0 => List("even") 
case 1 => List ("odd") 

}) 


13. select 

使 用 该 函数 可 以 从 划分 的 数据 流 中 选取 特定 的 数据 流 。 在 Java 中 ， 其 实现 方式 如 下 
所 示 : 

SplitStream<Integer> split; 

DataStream<Integer> even = split.select ("even"); 


DataStream<Integer> odd = split.select ("odd") ; 
DataStream<Integer> all = split.select ("even", "odd") ; 


在 Scala 中 ， 其 实现 方式 如 下 所 示 : 


val even = split select "even" 
val odd = split select "odd" 
val all = split.select ("even", "odd") 


14. project 
使 用 project 函数 可 以 从 事件 流 中 选择 属性 的 子 集 ， 并 将 所 选 的 元 素 发 送 至 下 一 个 处 
理 流 中 。 在 Java 中 ， 其 实现 方式 如 下 所 示 : 


DataStream<Tuple4<Integer, Double, String, String>> in = // [...] 
DataStream<Tuple2<String, String>> out = in-.pro]ect (3,2); 


在 Scala 中 ， 其 实现 方式 如 下 所 示 : 

val in : DataStream[(Int,Double,String)] = // [...] 

val out - in.project (3,2) 

上 述 代码 从 给 定 的 记录 中 选择 属性 数值 2 和 3。 下 列 内 容 显示 了 样本 输入 和 输出 记录 : 


(1,10.0, A, B )=> (B,A) 
(22209078 CDD (DG) 


15. 物理 分 区 

当 使用 Flink 时 ， 可 执行 流 式 数据 的 物理 分 区 。 此 外 ， 还 可 通过 相关 选项 实现 自 定义 
分 区 。 下 面 逐 一 考查 不 同 的 分 区 类 型 。 

(1) 自 定义 分 区 

如 前 所 述 ， 在 Java 中 ， 自 定义 分 区 器 实现 如 下 所 示 : 
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inputStream.partitionCustom(partitioner, "someKey") ; 
inputStream.partitionCustom(partitioner, 0); 


在 Scala 中 ， 其 实现 如 下 所 示 : 


inputStream.partitionCustom(partitioner, "someKey") 
inputStream.partitionCustom(partitioner, 0) 


当 编 写 自 定义 分 区 器 时 ， 应 确保 实现 了 高 效 的 hash 函数 。 
(2) 随机 分 区 
随机 分 区 以 随机 方式 划分 数据 流 。 在 Java 中 ， 其 实现 方式 如 下 所 示 : 
inputStream.shuffle(); 
在 Scala 中 ， 其 实现 方式 如 下 所 示 ; 
inputStream.shuffle() 
(3) 再 平衡 分 区 
这 一 分 区 类 型 有 助 于 实现 均匀 的 数据 分 布 ， 并 采用 了 循环 分 布 方法 。 当 数据 呈现 为 
倾斜 状态 时 ， 这 种 分 区 类 型 十 分 有 用 。 在 Java 中 ， 其 实现 方式 如 下 所 示 : 
inputStream.rebalance(); 
在 Scala 中 ， 其 实现 方式 如 下 所 示 : 


inputStream.rebalance(); 


16. 调整 数据 尺度 

该 方法 用 于 在 操作 间 分 布 数据 ， 在 数据 的 子 集 上 执行 转换 并 对 其 进行 整合 。 注 意 ， 
这 一 类 再 平衡 方案 仅 出 现 于 单一 节点 上 , 因而 不 存在 网 络 间 的 数据 传输 行为 。 在 Java 中 , 
其 实现 方式 如 下 所 示 : 

inputStream.rescale(); 

在 Scala 中 ， 其 实现 方式 如 下 所 示 : 


inputStream.rescale(); 


17. 广播 机 制 


广播 机 制 将 所 有 记录 分 布 至 每 个 分 区 中 ， 这 有 助 于 将 每 个 元 素 分 布 至 全 部 分 区 上 。 
在 Java 中 ， 其 实现 方式 如 下 所 示 : 


inputStream.broadcast (); 
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在 Scala 中 ， 其 实现 方式 如 下 所 示 : 


inputStream.broadcast ()Data Sinks 


一 旦 数据 转换 完毕 , 则 需要 对 结果 予以 保存 。 下 列 各 项 内 容 列 出 了 Flink 中 的 保存 选项 。 


口 
口 


口 
口 


口 


writeAsTextO: 以 字符 串 的 形式 一 次 写 入 一 行 。 

writeAsCsV0: 将 元 组 写 入 逗号 分 隔 的 值 文件 。 另 外 ， 行 和 字段 分 隔 符 均 可 进行 
配置 。 

printO/printErr(): 将 记录 写 入 标准 输出 中 ; 或 者 还 可 选择 写 入 标准 错误 系统 中 。 
writeUsingOutputFormat(): 可 提供 自 定义 输出 格式 。 当 确定 自 定义 格式 时 ， 须 扩 
展 OutputFormat 一 一 负责 序列 化 和 反 序 列 化 操作 。 

writeToSocket(: Flink 还 支持 将 数据 写 入 特定 的 套 接 字 中 ， 并 为 正确 的 序列 化 
和 格式 化 定义 SerializationSchema. 


18. 事件 时 间 和 水 印 
Flink Streaming API 的 设计 灵感 源 自 Google Dataflow 模型 ， 该 API 支持 不 同 的 时 间 
概念 。 下 列 内 容 列 举 了 流 式 环境 中 用 于 捕捉 时 间 的 常见 场景 。 


ü 


事件 时 间 。 事 件 时 间 是 指 事件 在 其 生产 设备 上 出 现 的 时 间 。 例 如 ， 在 物 联网 项 
目 中 ， 事 件 时 间 可 以 是 传感器 捕捉 读 取 操作 时 的 时 间 。 一 般 情 况 下 ， 这 一 类 事 
件 时 间 应 在 进入 Flink 之 前 置 入 记录 中 。 在 时 间 处 理 过 程 中 ， 此 类 时 间 戳 将 被 析 
取 并 围绕 窗口 机 制 予以 考查 。 事 件 时 间 处 理 可 用 于 无 序 事件 。 
处 理 时 间 。 处 理 时 间 则 是 执行 数据 处 理 流 时 的 机 器 时 间 。 处 理 时 间 的 窗口 机 制 仅 
查看 事件 被 处 理 时 的 时 间 戳 。 相 比 之 下 ， 处 理 时 间 是 最 为 简单 的 流 处 理 方式 一 一 
无 须 使 用 处 理 机 器 与 生产 机 器 之 间 的 异步 机 制 。 时 间 不 提供 某 种 确定 性 ， 因 为 
它 取决 于 系统 中 记录 的 流动 速度 。 

摄 入 时 间 。 摄 入 时 间 是 指 特定 事件 进入 Flink 时 的 时 间 。 所 有 基于 时 间 的 操作 均 
会 参考 该 时 间 戳 。 与 处 理 时 间 相 比 ， 摄 入 时 间 是 一 类 代价 相对 高 晶 的 操作 ， 但 
却 会 生成 可 预测 的 结果 。 摄 入 时 间 程 序 不 能 处 理 任何 无 序 事件 ， 因 为 它 只 在 事 
件 进入 Flink 系统 后 才 分 配 时 间 戳 。 


下 列 示例 展示 了 如 何 设置 事件 时 间 和 水 印 。 对 于 摄 入 时 间 和 处 理 时 间 ， 仅 分 配 了 时 
间 特 征 ， 水 印 的 生成 过 程 则 被 自动 处 理 。 
在 Java 中 ， 其 实现 过 程 如 下 所 示 : 


final StreamExecutionEnvironment env = 


StreamExecutionEnvironment.getExecutionEnvironment ( ) ; 


env.setStreamTimeCharacteristic (TimeCharacteristic.ProcessingTime) ; 
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//or 


env.setStreamTimeCharacteristic (TimeCharacteristic.IngestionTime); 


在 Scala 中 ， 其 实现 过 程 如 下 所 示 : 

val env = StreamExecutionEnvironment.getExecutionEnvironment 

env.setStreamTimeCharacteristic (TimeCharacteristic.ProcessingTime) 

//or 

env.setStreamTimeCharacteristic (TimeCharacteristic.IngestionTime) 

在 事件 时 间 流 程序 中 ， 可 指定 水 印 和 时 间 戳 的 分 配方 式 。 对 此 ， 存 在 以 下 两 种 水 印 
和 时 间 戳 的 分 配方 式 : 

QO 直接 从 数据 源 属性 中 分 配 。 

Q ”使 用 时 间 戳 分 配器 。 

当 与 事件 时 间 流 协同 工作 时 ， 在 Java 中 ， 时 间 特 征 的 分 配 实现 过 程 如 下 所 示 : 


final StreamExecutionEnvironment env = 


StreamExecutionEnvironment.getExecutionEnvironment (); 
env.setStreamTimeCharacteristic (TimeCharacteristic.EventTime; 


在 Scala 中 ， 其 实现 过 程 如 下 所 示 : 


val env = StreamExecutionEnvironment.getExecutionEnvironment 
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) 


通常 ,在 存储 数据 源 中 的 记录 时 即 存储 事件 时 间 是 一 种 较 好 的 方法 。 除 此 之 外 ,Flink 
还 支持 某 些 预 定义 时 间 戳 析 取 器 和 水 印 生成 器 。 

19. 连接 器 

Apache Flink 支持 多 种 连接 器 ， 并 通过 各 种 技术 实现 数据 的 读 取 / 写 入 操作 。 

(1) Kafka 连接 器 

Kafka 是 一 种 发 布 -订阅 分 布 式 消息 队列 系统 ， 用 户 可 将 消息 发 布 至 某 一 特定 主题 。 
随后 ， 这 些 消息 将 被 分 布 至 主题 的 订阅 器 中 。Flink 提供 了 多 种 选项 ， 并 可 将 Kafka 使 用 者 
定义 为 Flink 流 中 的 数据 源 。 当 使 用 Flink Kafka 连接 器 时 ， 需 要 使 用 特定 的 JAR 文件 。 

通过 相应 的 Maven 依赖 关系 即 可 使 用 连接 器 。 例 如 ， 对 于 Kafka 0.9 版 本 ， 可 向 
pom.xml 文件 中 添加 下 列 依赖 关系 : 

<dependency> 

XgroupId»org.apache.flink«/groupId» 


<artifactId>flink-connector-kafka-0.9 2.11/artifactId> 
<version>1.1.4</version> 


</dependency> 
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下 面 考查 如 何 将 Kafka 使 用 者 用 作 Kafka 源 。 在 Java 中 ， 其 实现 方式 如 下 所 示 : 


Properties properties = new Properties(); 

properties.setProperty ("bootstrap.servers", "localhost:9092"); 
properties.setProperty("group.id", "test"); 

DataStream<String> input = env.addSource (new 
FlinkKafkaConsumer09<String>("mytopic", new SimpleStringSchema(), 
properties) ); 


在 Scala 中 ， 其 实现 方式 如 下 所 示 : 


val properties = new Properties(); 
properties.setProperty("bootstrap.servers", "localhost:9092"); 
// only required for Kafka 0.8 

properties.setProperty ("zookeeper.connect", "localhost:2181"); 
properties.setProperty("group.id", "test"); 

stream — env 

-addSource (new FlinkKafkaConsumer09[String] ("mytopic", new 
SimpleStringSchema(), properties)) 

-print 


上 述 代 码 首 先 设置 Kafka EHL, Zookeeper 主机 和 端口 的 各 项 属性 ， 并 于 随后 指定 了 
主题 名 称 ， 在 当前 示例 中 表示 为 mytopic。 因 此 ， 如 果 消 息 发 布 至 mytopic 主题 中 ， 将 被 


Flink 流 进 行 处 理 。 

如 果 以 不 同 的 格式 获取 数据 , 还 可 以 为 反 序列 化 指定 自 定义 模式 。 默认 情况 下 , Flink 
支持 字符 串 和 JSON 反 序 列 化 器 。 当 启用 容错 机 制 时 , 可 启用 Flink 中 的 检查 点 机 制 。 Flink 
周期 性 地 获取 状态 快照 。 若 出 现 故障 ， 将 恢复 至 最 近 一 次 检查 点 处 并 重新 启动 处 理 过 程 。 
除 此 之 外 ， 还 可 将 Kafka 生产 者 定义 为 一 个 接收 器 ， 这 将 向 Kafka 主题 中 写 入 数据 。 在 
Java 中 ， 其 实现 过 程 如 下 所 示 : 

stream.addSink (new FlinkKafkaProducer09 [String] ("localhost:9092", 

"mytopic", new SimpleStringSchema ())) 

在 Scala 中 ， 其 实现 过 程 如 下 所 示 : 

stream.addSink(new FlinkKafkaProducer09«String» ("localhost:9092", 

"mytopic", new SimpleStringSchema())); 

(2) Twitter 连接 器 

随 着 社交 媒体 和 网 站 功能 性 的 不 断 提升 ,应 可 从 Twitter 中 获取 数据 并 对 其 进行 处 理 。 
Twitter 数据 可 用 于 各 种 产品 、 服 务 和 应 用 程序 等 的 情感 分 析 。 

相应 地 ，Flink 提供 了 Twitter 连接 器 作为 一 种 数据 源 。 当 使 用 这 一 类 连接 器 时 ， 须 通 
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过 Twitter 账号 创建 Twitter 应 用 程序 ， 并 生成 连接 器 所 用 的 授权 密 钥 。 

Twitter 连接 器 可 在 Java 或 Scala 中 使 用 。 一 旦 生成 了 令 牌 , 即 可 编写 程序 并 从 Twitter 
中 获取 数据 ， 具 体 步骤 如 下 : 

① 首先 添加 Maven 依赖 关系 : 


<dependency> 


<groupId>org. apache. flink</groupId> 
<artifactId>flink-connector-twitter_2.11/artifactId> 
<version>1.1.4</version> 

</dependency> 


② 随后 作为 数据 源 添加 Twitter。 在 Java 中 ， 其 实现 方式 如 下 所 示 : 


Properties props = new Properties(); 
props.setProperty(TwitterSource.CONSUMER KEY, ""); 
props.setProperty (TwitterSource.CONSUMER SECRET, 
props.setProperty(TwitterSource.TOKEN, ""); 
props.setProperty(TwitterSource.TOKEN SECRET, ""); 
DataStream«String» streamSource - env.addSource (new 
TwitterSource (props)); 


TE Scala 中 ， 其 实现 方式 如 下 所 示 : 


val props = new Properties(); 
props.setProperty(TwitterSource.CONSUMER KEY, ""); 
props.setProperty(TwitterSource.CONSUMER SECRET, ""); 
props.setProperty (TwitterSource.TOKEN, ""); 
props.setProperty (TwitterSource .TOKEN SECRET, ""); 
DataStream<String> streamSource = env.addSource (new 


TwitterSource (props) ); 


在 上 述 代码 中 ， 首 先 设置 了 获得 的 令 牌 属性 ， 并 于 随后 加 入 TwitterSource。 如 果 给 
定 的 信息 正确 无 误 ， 即 可 开始 从 Twitter 中 获取 数据 。TwitterSource 将 以 JSON 字符 串 形 
式 生成 数据 。Twitter JSON 示例 代码 如 下 所 示 : 


"text": ""Loyalty 3.0: How to Revolutionize Customer &amp; Employee 
Engagement with Big Data &amp; #Gamification" can be ordered here: 
http://t.co/1XhqyaNjuR", 

"geo": null, 

"retweeted": false, 

"in reply to screen name": null, 
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"possibly sensitive": false, 


"truncated": false, 
"Tang" 
"hashtags": 
PESxETS 
"indices": 
103] 


"en", 

Lt 
"Gamification", 
[90, 


"in reply to status id str": 
"id": 330094515484508160 


} 
TwitterSource 提供 了 各 种 StatusesS. 


(3) RabbitMQ 连接 器 


入 过 滤器 ， 且 并 不 打算 使 用 默认 的 


null, 


回 一 组 随机 消息 集 。 如 果 需 
端点 ， 则 可 实现 TwitterSource.EndpointInitializer 


ampleEndpoint， 并 返 


一 旦 从 Twitter 中 获取 了 数据 ， 即 可 对 数据 进行 处 理 、 存 储 或 分 析 。 


RabbitMQ 是 一 类 广泛 使 用 的 高 性 能 分 布 式 消息 队列 系统 。 对 于 高 吞吐 量 操作 ， 
RabbitMQ 一 般 用 作 消息 传 输 系 统 。 此 外 ， 还 可 生成 分 布 式 消息 队列 ， 并 在 队列 中 纳入 发 
布 者 和 订阅 者 。 关 于 RabbitMQ 的 更 多 信息 ， 读 者 可 访问 https://www.rabbitmq.com/ 。 

Flink 支持 RabbitMQ 间 数 据 的 获取 和 发 布 ， 并 提供 了 一 个 连接 器 ， 可 以 充当 数据 流 


相关 ID: 作为 一 个 RabbitMQ 特性 , 用 于 在 分 布 式 系统 中 通过 唯一 


工作 ， 需 要 提供 下 列 信息 。 


等 配置 信息 。 


ID 关联 请 求 


的 数据 源 。 
了 能 够 使 RabbitMQ 连接 器 正常 
口 RabbitMQ: 诸如 主机 、 端 口 、 用 户 凭证 
Q ”队列 : 希望 订阅 的 RabbitMQ 队列 名 称 。 
a 
和 响应 。 
口 反 序 列 


因此 ， 当 接收 消息 时 ， 订 1 


量 。 


化 模式 : RabbitMQ 以 序列 化 方式 存储 和 传输 数据 ， 进 而 避免 产 和 


E 网 络 流 
阅 器 知晓 如 何 对 数据 执行 反 序列 化 操作 。Flink YE 


接 器 提供 了 一 些 默认 的 反 序 列 化 器 ， 例 如 字符 串 反 序 列 化 器 。 
RabbitMQ 源 在 数据 传输 方面 提供 了 下 列 选项 。 


u 
u 


“ 仅 一 次 ”方案 : TE RabbitMQ 3 


事务 中 使 用 RabbitMQ 关联 ID 和 Flink 检查 点 机 制 。 


“至 少 一 次 ”方案 : 当 启 用 Flink 检查 点 机 制 ， 但 未 设置 RabbitMQ 相关 ID 时 。 


RabbitMQ 自动 提交 模式 并 不 具备 可 


靠 的 传输 保证 。 
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下 面 尝试 编写 代码 ， 以 使 连接 器 可 正常 工作 。 类 似 于 其 他 连接 器 ， 需 要 向 代码 中 添 
加 Maven 依赖 关系 ， 如 下 所 示 : 


«dependency» 


XgroupId»org.apache.flink«/groupId» 
<artifactId>flink-connector-rabbitmq 2.11/artifactId» 
<version>1.1.4</version> 

</dependency> 


下 列 代码 片段 展示 了 在 Java 中 如何 使用 RabbitMQ 连接 器 。 


//Configurations 

RMQConnectionConfig connectionConfig = new RMQConnectionConfig.Builder () 
-setHost (<host>) .setPort («port»).setUserName(..) 

.setPassword(..) .setVirtualHost ("/").build(); 


//Get Data Stream without correlation ids 

DataStream<String> streamWO = env.addSource (new 
RMQSource<String>(connectionConfig, "my-queue", new SimpleStringSchema () ) ) 
.print 


//Get Data Stream with correlation ids 

DataStream<String> streamW = env.addSource (new 
RMQSource<String>(connectionConfig, "my-queue", true, new 
SimpleStringSchema ())) 

-print 


类 似 地 ，Scala 中 的 对 应 代码 如 下 所 示 : 


val connectionConfig = new RMQConnectionConfig.Builder() 
.setHost (<host>) .setPort (<port>) .setUserName(..) 
.setPassword(..).setVirtualHost ("/").build() 


streamsWOIds =  env.addSource(new RMQSource[String] (connectionConfig, 
" myqueue", new SimpleStringSchema)) 

.print 

streamsWIds =  env.addSource (new  RMQSource[String] (connectionConfig, 
"myqueue", true, new SimpleStringSchema)) 

-print 


此 外 ， 还 可 将 RabbitMQ 连接 器 用 作 Flink 接收 器 。 

当 把 处 理 结果 发 送 回 不 同 的 RabbitMQ 队列 中 时 , 需要 提供 以 下 3 项 较为 重要 的 配置 : 
口 RabbitMQ 配置 。 

口 ” 队 列 名 称 一 一 所 处 理 数据 的 返回 位 置 。 
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口 序列 化 模式 一 一 用 以 将 数据 转换 为 字 节 的 RabbitMQ 模式 。 
下 列 Java 示例 代码 显示 了 如 何 将 该 连接 器 用 作 Flink 接收 器 。 


RMQConnectionConfig connectionConfig = new RMQConnectionConfig.Builder() 
-setHost («host») .setPort (<port>) .setUserName(..) 
-SetPassword(..).setVirtualHost ("/") .build(); 

stream.addSink (new RMQSink<String>(connectionConfig, "target-queue", new 
StringToByteSerializer())); 


Scala 中 的 实现 方式 如 下 所 示 : 


val connectionConfig = new RMQConnectionConfig.Builder() 

-setHost («host») .setPort (Xport»).setUserName(..) 
.SetPassword(..).setVirtualHost ("/").build() 

stream.addSink (new RMQSink [String] (connectionConfig, "target-queue", new 
StringToByteSerializer 


(4) Elasticsearch 连接 器 
Elasticsearch 是 一 个 分 布 式 、 低 延迟 、 全 文本 搜索 引擎 ， 并 可 对 所 选取 的 文档 进行 索 


引 ， 随 后 可 在 文档 集合 上 执行 全 文本 搜索 。 关 于 Elasticsearch 的 更 多 信息 ， 读 者 可 访问 


https://www.elastic.co « 


在 某 些 场合 下 ， 可 能 需要 通过 Flink 处 理 数据 ， 随 后 将 其 存储 于 Elasticsearch 中 。 对 


JE, Flink 对 Elasticsearch 连接 器 提供 了 相应 的 支持 。 截 至 目前 ，Elasticsearch 包含 了 两 个 
主要 版本 , Flink 对 此 均 予 支持 。 对 于 Elasticsearch 1.x， 需 要 添加 下 列 Maven 依赖 关系 : 


<dependency> 

\<groupId>org.apache.flink</groupId> 
<artifactId>flink-connector-elasticsearch 2.11</artifactId> 
<version>1.1.4</version> 

</dependency> 


Flink 连接 器 提供 了 一 个 接收 器 将 数据 写 入 Elasticsearch 中 。 它 使 用 了 以 下 两 种 方法 


连接 到 Elasticsearch: 


口 ” 典 入 式 节点 模式 。 在 嵌入 式 节点 模式 中 ， 接 收 器 使 用 BulkProcessor 将 文档 发 送 
至 ElasticSearch 中 。 在 将 文档 发 送 至 Elasticsearch 之 前 ， 可 对 缓冲 的 请 求 数量 进 
行 配置 ， 如 下 所 示 ; 

DataStream<String> input = ...; 

Map<String, String> config = Maps.newHashMap(); 


config.put("bulk.flush.max.actions", "1"); 
config.put("cluster.name", "cluster-name"); 
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input.addSink(new ElasticsearchSink<>(config, new 
IndexRequestBuilder<String>() { 
@Override 
public IndexRequest createIndexRequest (String element, 
RuntimeContext ctx) { 
Map<String, Object» json = new HashMap<>() ; 
json.put("data", element); 
return Requests.indexRequest () 
- index ("my-index") 
. type ("my-type") 
-Source (json); 
} 
)); 


上 述 代码 利用 集群 名 称 ， 以 及 发 送 请 求 前 的 缓冲 文件 数量 创建 了 哈 希 映射 。 随 后 ， 
我 们 向 数据 流 中 添加 了 接收 器 ， 并 指定 了 索引 、 类 型 和 存储 的 文档 。 类 似 地 ，Scala 中 的 
代码 实现 如 下 所 示 : 


val input: DataStream[String] = ... 
val config - new util.HashMap[String, String] 
config.put("bulk.flush.max.actions", "1") 
config.put("cluster.name", "cluster-name") 
text.addSink(new ElasticsearchSink(config, new 
IndexRequestBuilder[String] 
{ 
override def createIndexRequest(element: String, ctx: 
RuntimeContext): 
IndexRequest 
val json - new util.HashMap[String, AnyRef] 
json.put("data", element) 


Requests .indexRequest . index ("my-index"). `type` ("mytype"). 
source (json) 
) 
} ) ) 


O ”传输 客户 端 模 式 。Elasticsearch 允许 通过 9300 端口 上 的 传输 客户 端 进行 连接 。 
Flink 支持 基于 其 连接 器 的 连接 方式 。 随 后 ， 可 在 配置 中 指定 集群 中 的 所 有 
Elasticsearch 节点 。 下 列 代码 显示 了 Java 中 的 实现 方式 : 


DataStream<String> input = ...; 


Map<String, String> config = Maps.newHashMap(); 
config.put("bulk.flush.max.actions", "1"); 


。298 。 Hadoop 大 数据 分 析 实 战 


config.put("cluster.name", "cluster-name"); 


List«TransportAddress» transports = new ArrayList«String»(); 


transports.add(new InetSocketTransportAddress ("es-node-1", 
transports.add(new InetSocketTransportAddress ("es-node-2", 
transports.add(new InetSocketTransportAddress ("es-node-3", 


9300)); 
9300)); 
9300)); 


input.addSink(new ElasticsearchSink«» (config, transports, new 


IndexRequestBuilder<String>() { 

@Override 

public IndexRequest createIndexRequest (String element, 
RuntimeContext ctx) { 

Map<String, Object» json = new HashMap<>(); 
json.put ("data", element); 

return Requests. indexRequest () 

. index ("my-index") 

. type ("my-type") 

-Source (json); 

} 

)); 


其 中 提供 了 与 集群 名 称 、 节 点 、 端 口 、 批 量 发 送 的 最 大 请 求 数量 等 相关 的 细节 内 容 。 


美 似 地 , Scala 中 的 实现 代码 如 下 所 示 : 


val input: DataStream[String] = ... 

val config - new util.HashMap[String, String] 
config.put("bulk.flush.max.actions", "1") 
config.put("cluster.name", "cluster-name") 

val transports - new ArrayList[String] 

transports.add(new InetSocketTransportAddress ("es-node-1", 
transports.add(new InetSocketTransportAddress ("es-node-2", 
transports.add(new InetSocketTransportAddress ("es-node-3", 
text.addSink(new ElasticsearchSink(config, transports, new 
IndexRequestBuilder[String] { 

override def createIndexRequest (element: String, ctx: 
RuntimeContext): 

IndexRequest - ( 

val json - new util.HashMap[String, AnyRef] 
json.put("data", element) 
Requests.indexRequest.index("my-index"). type ("mytype"). 
source (json) 

) 

} ) ) 


9300) ) 
9300) ) 
9300) ) 
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(5) Cassandra 连接 器 

Cassandra 是 一 种 分 布 式 、 低 延迟 的 NoSQL 数据 库 ， 同 时 也 是 一 个 基于 键 - 值 的 数据 
库 。 相 应 地 ， 许 多 高 吞吐 量 的 应 用 程序 采用 Cassandra 作为 其 主 数据 库 。Cassandra 可 与 
分 布 式 集群 节点 协同 工作 ， 其 中 并 不 会 涉及 主 从 架构 。 任 何 节点 均 可 执行 相应 的 读 、 写 
操作 。 关 于 Cassandra 的 更 多 信息 ， 读 者 可 访问 http://cassandra.apache.org。 

Apache Flink 提供 了 一 个 连接 器 ， 可 将 数据 写 入 Cassandra 中 。 在 许多 应 用 程序 中 ， 
我 们 需要 将 Flink 中 的 流 数 据 存储 至 Cassandra 中 。 

类 似 于 其 他 连接 器 ， 此 处 也 需要 添加 Maven 依赖 关系 ， 如 下 所 示 : 


<dependency> 


<groupId>org.apache. flink</groupId> 
<artifactId>flink-connector-cassandra_2.11</artifactId> 
<version>1.1.4</version> 

</dependency> 


在 加 入 了 依赖 关系 后 ， 可 利用 相关 配置 添加 Cassandra 接收 器 ， 在 Java 中 ， 其 实现 
方式 如 下 所 示 : 

CassandraSink.addSink (input) 

-SetOuery ("INSERT INTO cep.events (id, message) values (?, ?);") 

.setClusterBuilder (new ClusterBuilder() { 

@Override 

public Cluster buildCluster(Cluster.Builder builder) { 

return builder.addContactPoint ("127.0.0.1") .build(); 

} 


}) 
-build() 


在 Scala 中 ， 其 实现 方式 如 下 所 示 : 


CassandraSink.addSink (input) 

- SetOuery ("INSERT INTO cep.events (id, message) values (?, ?);") 
.setClusterBuilder (new ClusterBuilder() { 

@Override 

public Cluster buildCluster(Cluster.Builder builder) { 

return builder.addContactPoint ("127.0.0.1") .build(); 

} 

) 

-build(); 
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93 本 章 小 结 


本 章 学 习 了 Flink 中 功能 强大 的 API， 即 DataStream API; 数据 源 、 转 换 和 接收 器 之 
间 的 协同 工作 方式 ， 以 及 连接 器 技术 (Elasticsearch, Cassandra. Kafka, RabbitMQ 等 ) 。 
除 此 之 外 ， 本 章 还 讨论 了 基于 Apache Flink 的 流 式 处 理 技术 。 

在 第 10 章 中 ， 我 们 将 改变 一 下 话题 ， 讨 论 令 人 兴奋 的 可 视 化 数据 领域 方面 的 内 容 。 
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本 章 讨 论 大 数据 和 分 析 处 理 过 程 中 最 为 重要 的 内 容 之 一 , 即 数据 的 可 视 化 技术 。 俗 
话说 ， 一 图 胜 千言 。 在 数据 处 理 期 间 ， 我 们 需要 持续 地 对 数据 予以 理解 、 应 用 和 交互 ， 
与 表 、 列 或 文本 文件 的 读 取 操作 相 比 ， 数 据 的 可 视 化 行为 将 更 加 简单 明了 。 当 通过 数据 
分 析 方 法 (例如 Python, R, Spark, Flink, Hive, MapReduce 等 ) 得 到 某 种 结论 后 ， 
我 们 往往 需要 在 数据 背景 下 对 其 加 以 进一步 的 理解 。 针 对 于 此 ， 需 要 使 用 到 图 形 显示 
技术 。 

本 章 主 要 涉及 以 下 主题 : 

ロロ ”数据 可 视 化 简介 。 

Tableau. 
图 表 类 型 。 

使 用 Python. 
使用 Ro 
数据 可 视 化 工具 。 


ロロ ロロ ロ 


10.1 数据 可 视 化 简介 


数据 可 视 化 是 理解 大 数据 进而 体现 数据 价值 的 有 效 方法 之 一 。 数 据 可 视 化 依赖 于 相 
关 用 例 ， 图 形 和 图 表 则 是 数据 的 可 视 化 表达 结果 ， 同 时 也 提供 了 一 种 强大 的 汇总 和 显示 
数据 的 方法 ， 而 这 种 方法 往往 更 容易 理解 。 我 们 可 通过 图 表 和 图 形 观察 某 些 数据 的 主要 
特征 ， 这 不 仅 体现 了 学 习 过 程 中 的 数值 结果 ， 同 时 还 展示 了 数据 的 形状 和 模式 ， 这 对 于 
数据 分 析 和 决策 的 制定 来 说 十 分 重要 。 对 于 数据 可 视 化 ， 需 要 注意 以 下 几 点 内 容 : 

ü ”数据 类 型 所 对 应 的 图 形 表达 类 型 。 
如 何 设计 支持 交互 特征 的 可 视 化 方案 。 
如 何 采 用 图 形 方式 搜索 和 调整 数据 集 。 
区 分 数据 和 结论 间 的 差异 。 
随 着 大 数据 规模 的 增长 ， 如 何 选择 可 视 化 技术 。 


ロロ ロロ 
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如 何 处 理 延 迟 问题 ， 以 便 消 除 可 视 化 数据 中 的 延迟 现象 。 
对 于 高 速 数 据 或 流 式 数据 ， 如 何 优化 设计 方案 ， 进 而 展示 实时 可 视 化 效果 。 
如 何 实现 数据 库 的 数据 可 视 化 技术 。 
如 何 实现 内 存 中 的 数据 可 视 化 技术 。 
数据 可 视 化 包含 了 多 种 不 同 的 实现 方式 ， 图 10.1 展示 了 一 些 例子 ， 描 述 了 图 表 类 型 
的 选择 如 何 改变 可 视 化 方案 的 使 用 和 效果 。 


ロロ ロロ 


プン アン ジン デン ンジ 


图 10.2 展示 了 一 些 可 视 化 示例 。 
10.2 Tableau 
本 节 将 介绍 Tableau 这 一 十 分 流行 的 可 视 化 工具 。 对 此 , 可 尝试 下 载 Tableau 试用 版 ， 


并 在 本 地 机 器 上 进行 安装 。 读 者 可 访问 https://www.tableau.com/ 下載 Tableau. 
图 10.3 显示 了 Tableau 的 下 载 链接 页 面 。 
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图 10.3 


当 Tableau 试用 版 安装 完毕 后 〈 或 者 用 户 拥有 经 许可 使 用 的 软件 副本 ) ， 即 可 尝试 进 
行 某 些 较为 基本 的 可 视 化 操作 。 
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图 10.4 显示 了 Tableau 的 启动 画面 ， 其 中 包含 了 可 供 选 择 的 各 种 数据 源 。 
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图 10.4 
下 面 打 开 OnlineRetail.csv 文件 ， 图 10.5 显示 了 一 个 空白 工作 区 。 


其 中 ， 选 取 Quantity 作为 列 ， 并 查看 条 状 图 ， 如 图 10.6 所 示 。 
选取 Description 作为 行 ， 并 查看 各 项 数量 结果 ， 如 图 10.7 所 示 。 
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图 10.6 
相应 地 ， 还 可 使 用 过 滤器 消除 负 值 ， 如 图 10.8 所 示 。 
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图 10.8 


Quantity 


Quantity 


图 10.9 显示 了 任意 数字 列 的 数值 范围 ， 例 如 Quantity. 
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图 10.9 


接 下 来 ， 可 针对 Quantity 选择 有 效 的 数值 范围 ， 如 图 10.10 所 示 。 
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图 10.11 仅 显 示 了 正 值 结果 。 


图 10.11 


我 们 还 可 根据 Quantity 对 条 状 图 进行 排序 ， 以 便 在 上 方 查看 包含 最 大 Quantity 的 
Descriptions 项 ， 如 图 10.12 所 示 。 


Data 


图 10.12 
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图 10.13 显示 了 如 何 创 建新 的 工作 表 。 


图 10.13 
与 上 一 个 工作 表 类 似 ， 此 处 选择 了 Description and Quantity， 如 图 10.14 所 示 。 


图 10.14 
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当然 ， 我 们 也 可 以 从 右 侧面 板 中 选择 不 同 的 图 表 类 型 。 此 处 选择 了 气泡 图 ， 如 图 10.15 
所 示 。 
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第 10 章 大 数据 可 视 化 技术 ・311・ 


除 此 之 外 ， 还 可 进一步 选取 图 表 的 颜色 和 其 他 属性 ， 如 图 10.17 所 示 。 
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图 10.17 
同时 ， 排 除 某 些 行 / 列 或 值 /数据 的 操作 也 十 分 简单 ， 如 图 10.18 所 示 。 
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另外 ， 还 可 生成 包含 多 个 工作 表 的 Dashboard， 如 图 10.19 所 示 。 
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图 10.19 
图 10.20 创建 了 其 他 类 型 的 图 标 〈 线 状 图 ) 。 
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图 10.20 


第 10 章 大 数据 可 视 化 技术 “313。 


图 10.21 显示 了 向 Dashboard 中 添加 的 新 工作 表 。 
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图 10.21 
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图 表 可 采用 多 种 形式 予以 呈现 。 然 而 。 一 些 常见 的 特性 为 图 表 提 供 了 从 数据 中 提取 
相关 含义 的 能 力 。 通 常情 况 下 ， 图 表 中 的 数据 以 图 形 方式 加 以 显示 ， 与 文本 内 容 相 比 ， 
我 们 可 迅速 领悟 其 中 的 意义 。 相 应 地 ， 文 本 一 般 仅 用 于 对 数据 进行 注解 。 

在 图 形 中 ， 文 本 较为 重要 的 应 用 之 一 是 标题 。 图 形 中 的 标题 通常 在 其 上 方 显示 ， 同 
时 提供 了 图 形 中 所 用 数据 的 扼要 描述 。 另 外 ， 数 据 的 维度 一 般 显示 于 各 个 轴 向 上 。 当 采 
用 水 平和 垂直 轴 时 ， 则 分 别 表示 为 ox 轴 和 y 轴 。 每 个 轴 向 上 具有 对 应 的 量度 ， 并 采用 周 
期 性 的 刻度 表示 ， 通 常 伴 有 数字 或 分 类 指示 。 另 外 ， 每 个 轴 向 上 还 包含 了 一 个 显示 于 一 
侧 的 标记 ， 用 于 简要 描述 所 表示 的 维度 。 如 果 量 度 表示 为 数值 ， 该 标记 一 般 采 用 括号 中 
的 量度 单位 作为 后 绥 。 在 图 形 表达 中 ， 直 线 网 格 可 用 于 辅助 显示 数据 的 视觉 对 齐 效果 。 
例如 ， 可 在 视觉 上 利用 某 些 突出 的 线条 体现 变化 过 程 中 网 格 的 增强 效果 。 相 应 地 ， 突 显 
的 线条 称 作 主 要 网 格 线 ， 其 余 线条 则 称 作 次 要 网 格 线 。 
图 表 中 的 数据 可 通过 各 种 格式 予以 呈现 ， 并 可 包含 独立 的 文本 标记 ， 用 以 描述 与 图 
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表 中 所 示 位 置 相 关联 的 数据 。 相 应 地 ， 数 据 可 通过 点 或 各 种 形状 、 连 接 或 非 连接 ， 以 及 
任意 颜色 和 模式 的 组 合 结果 加 以 展示 。 而 一 些 推断 结果 或 者 关注 点 则 可 直接 全 加 于 图 形 
上 ， 以 进一步 帮助 信息 提取 。 

当 显示 于 图 表 中 的 数据 包含 了 多 个 变量 时 ， 图 表 中 可 以 设置 对 应 的 图 例 。 这 里 ， 图 
例 包 含 了 图 表 中 显示 的 变量 列表 ， 以 及 显示 示例 。 此 类 信息 有 助 于 在 图 表 中 识别 源 自 变 
量 的 数据 。 


10.3.1 RRE 


线 状 图 可 查看 一 段 时 间 内 一 个 或 多 个 变量 的 行为 ， 并 对 发 展 趋势 进行 判断 。 在 传统 
的 BI 中 ， 线 状 图 可 用 于 显示 过 去 12 个 月 以 来 的 规模 、 利 润 、 收 入 方面 的 发 展 状况 。 当 
与 大 数据 协同 工作 时 ， 公 司 可 采用 这 一 类 可 视 化 技术 跟踪 产品 的 购买 量 〈 以 星期 计算 ) 、 
销售 部 门 的 平均 月 订单 数量 等 。 

图 10.22 显示 了 线 状 图 示例 。 
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图 10.22 
10.3.2 ftf 


饼 图 展示 了 整体 内 容 中 的 各 个 组 成 部 分 。 同 时 使 用 传统 数据 和 大 数据 的 公司 可 通过 
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这 种 技术 观察 客户 的 细 分 状态 和 市 场 份额 。 不 同 之 处 在 于 ， 这 一 些 公司 采用 原始 数据 作 
为 分 析 的 来 源 。 
图 10.23 显示 了 饼 图 示例 。 
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10.3.3 ”柱状 图 
饼 状 图 可 对 不 同 的 变量 值 进行 比较 。 在 传统 的 BI 中 ， 公 司 可 通过 类 别 分 析 销 售 额 ， 
并 通过 渠道 查看 市 场 的 营销 成 本 等 。 当 对 大 数据 进行 分 析 时 ， 公 司 可 以 按 小 时 查看 客户 


的 参与 度 、 销 售 数据 等 内 容 。 
图 10.24 显示 了 垂直 柱状 图 示例 。 
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图 10.25 显示 了 水 平 柱状 图 示例 。 
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图 10.25 
10.3.4 A 


热 图 通过 颜色 展示 数据 。 读 者 可 能 对 Excel 中 的 热 图 有 所 耳闻 。 其 中 , 采用 绿色 突出 
显示 销售 业绩 最 好 的 分 公司 ， 而 以 红色 展示 销售 业绩 最 差 的 分 公司 。 如 果 零 售 商 打算 了 
解 店内 顾客 最 常 光顾 的 购物 通道 ， 则 可 使 用 销售 楼 层 的 热 图 加 以 展示 。 例 如 来 自视 频 监 

图 10.26 显示 了 热 图 示例 。 


O :s. 

读者 可 访问 https://blog.hubspot.com/marketing/great-data-visualization-examples 和 http:// 
www.mastersindatascience.org/blog/10-cool-big-datavisualizations/ ,以 了 解 其 他 一 些 较 为 有 趣 的 
可 视 化 技术 。 

可 视 化 本 身 就 是 一 门 艺术 ， 每 个 用 例 都 需要 关注 可 视 化 的 内 容 ， 包 括 图 表 类 型 、 数 
据点 的 数量 、 元 素 的 颜色 等 。 
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Fastest Cars in the World 
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图 10.26 


10.4 基于 Python 的 数据 可 视 化 


Python 提供 了 多 项 大 数据 分 析 的 扩展 功能 ， 其 中 也 涉及 数据 的 图 形 表示 和 可 视 化 技 
术 。 
Qs. 


第 4 章 曾 对 基于 Python 的 大 数据 分 析 和 可 视 化 技术 有 所 讨论 。 
下 列 代码 显示 了 一 个 Python 示例 〈 仅 涉及 单列 ) 。 


d8 = pd.DataFrame(df, columns-['Quantity']) [0:100] 
d8.plot() 


此 处 仅 选 取 了 前 100 个 元 素 ， 以 避免 图 形 数据 过 于 拥挤 ， 进 而 较 好 地 展示 当前 示例 。 
对 应 结果 如 图 10.27 所 示 。 
下 列 代码 显示 了 多 个 列 的 可 视 化 结果 : 


d8 = pd.DataFrame (df, columns-['Quantity', 'UnitPrice']) [0:100] 
d8.plot() 


对 应 结果 如 图 10.28 所 示 。 
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d8 = pd.DataFrame (df, columns-['Quantity']) [0:100] 
d8.plot 


<matplotlib.axes. subplots.AxesSubplot at Ox1b39e3aeb00» 


ーー Quantity 


d8 = pd.DataFrame(df, columns-['Quantity', 'UnitPrice']) [0:100] 
d8.plot() 


<matplotlib.axes. subplots.AxesSubplot at Ox1b39f21ef98» 


ーー Quantity 
UnitPrice 


图 10.28 


需要 注意 的 是 ，Python 并 不 会 绘制 定性 的 数据 列 〈 例 如 Description) ， 而 是 仅 显 示 
图 形 化 的 数据 。 
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10.5 基于 R 的 数据 可 视 化 


R 提供 了 多 项 大 数据 分 析 的 扩展 功能 ， 其 中 也 涉及 数据 的 图 形 表 示 和 可 视 化 技术 。 
Qz: 

第 5 章 曾 对 基于 及 的 大 数据 分 析 和 可 视 化 技术 有 所 讨论 

当 采 用 及 时 ， 我 们 也 可 对 所 选 列 进行 绘制 ， 如 下 所 示 : 

plot (df$UnitPrice) 

对 应 结果 如 图 10.29 所 示 。 
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图 10.29 


又 如 : 


plot (dl, type="b") 
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对 应 结果 如 图 10.30 所 示 。 
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图 10.30 
10.6 大 数据 可 视 化 工具 


通过 对 大 数据 工具 市 场 的 快速 调查 ， 可 以 发 现 包括 微软 (Microsoft) SAP、IBM 和 
SAS 在 内 的 大 公司 的 身影 。 除 此 之 外 ， 也 可 以 看 到 一 些 专业 软件 供应 商 发 布 的 技术 领先 
的 大 数据 可 视 化 工具 ， 其 中 包括 Tableau, Qlik 和 TIBCO。 下 面 列 出 了 一 些 领 先 的 数据 可 
视 化 产品 。 

口 IBM Cognos Analytics: 在 大 数据 背景 的 驱动 下 ，IBM 发 布 的 数据 分 析 包 提供 了 
各 种 自助 服务 选项 ， 从 而 可 更 加 方便 地 获取 分 析 结 果 。 读 者 可 访问 https://www. 
ibm.com/analytics/us/en/technology/products/cognosanalytics/ 以 了 解 更 多 信息 。 

口 QlikSense and QlikView: Qlik 解决 方案 能 够 执行 更 复杂 的 数据 分 析 ， 进 而 获取 
更 加 隐藏 的 分 析 结 果 。 
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ロロ Microsoft PowerBI: Power BI 工具 可 关联 数 百 个 数据 源 ， 并 于 随后 在 Web 和 移 
动 设 备 上 发 布 分 析 报 告 。 读 者 可 访问 https://powerbi.microsoft.com/en-us/ 以 了 解 
更 多 信息 。 

Q Oracle Visual Analyzer: Oracle Visual Analyzer 是 一 个 基于 Web 的 可 视 化 工具 ， 
允许 创建 可 管理 的 视图 ， 以 帮助 发 现 数 据 中 的 相关 性 和 模式 。 读 者 可 访问 
https://docs.oracle.com/cloud/latest/reportingcs use/BILUG/GUID-7DC34CA8-3F7C- 
45CF-8350-441D8D9898EA .htm#BILUG-GUID-7DC34CA8-3F7C-45CF-8350- 
441D8D9898EA 以 了 解 更 多 信息 。 

Q SAP Lumira: Lumira 号 称 是 面向 所 有 用 户 的 、 具 有 自助 服务 的 数据 可 视 化 工具 ， 
并 可 将 可 视 内 容 整合 至 故事 板 (storyboard) 中 。 

Q SAS Visual Analytics: SAS 解决 方案 提升 了 可 伸缩 性 和 管理 能 力 ， 同 时 包含 了 
动态 可 视 化 和 灵活 的 部 署 选项 。 读 者 可 访问 https://www.sas.com/en us/software/ 
business-intelligence/visual-analytics.html 以 了 解 更 多 内 容 。 

Q Tableau Desktop: Tableau 的 交互 式 视图 可 动态 地 发 现 隐 藏 的 分 析 结 论 ， 高 级 用 
户 还 可 以 对 元 数据 进行 管理 ， 以 充分 利用 不 同 的 数据 源 。 读 者 可 访问 htps://www. 
tableau.com/products/desktop 以 了 解 更 多 信息 。 

ロロ TIBCO Spotfire: TIBCO Spotfire 将 分 析 软 件 作为 一 项 服务 予以 提供 ， 并 可 为 小 
型 开发 团队 甚至 是 整个 机 构 提 供 相 应 的 解决 方案 。 读 者 可 访问 http:/spotfire. 
tibco.com/ 以 了 解 更 多 信息 。 


10.7 本 章 小 结 


本 章 介绍 了 可 视 化 功能 及 其 背后 的 各 种 概念 。 第 11 章 将 讨论 云 计算 的 力量 ， 以 及 它 
如 何 改变 大 数据 和 大 数据 分 析 的 格局 。 


第 11 章 云 计算 简介 


本 章 讨 论 云 计 算 、 基 础 设施 即 服务 CaaS) 、 平 台 即 服务 、 软 件 即 服务 等 概念 。 除 此 
之 外 ， 本 章 还 将 简要 介绍 一 些 云 供应 商 。 

本 章 主 要 涉及 以 下 主题 : 
云 计算 基础 知识 。 
概念 和 术语 。 
目标 和 收益 。 
风险 与 挑战 。 
角色 和 界线 。 
云 计 算 特 征 。 
云 交 付 模型 。 
云 部 署 模型 。 

无 论 是 在 数 百 万 名 移动 用 户 间 分 享 图 片 ， 抑 或 支撑 较为 重要 的 业务 操作 ， 云 服务 
台 均 针对 这 一 类 灵活 、 低 成 本 的 IT 资源 提供 了 快速 访问 方式 。 当 采用 云 计算 时 ， 一 般 不 
需要 在 管理 硬件 上 投入 大 量 资金 。 相 反 ， 我 们 可 提供 适当 的 计算 资源 以 实现 相关 理念 ， 
或 者 对 IT 部 门 的 工作 进行 管理 。 

对 于 服务 器 、 存 储 、 数 据 库 和 互联 网 上 应 用 程序 服务 集 ， 云 计算 可 提供 简单 的 访问 
方式 。 云 服务 平台 ， 例 如 亚马逊 Web 服务 CAWS) 即 持 有 并 负责 维护 应 用 程序 所 需 的 网 
络 连接 硬件 ， 并 可 通过 Web 应 用 程序 使 用 相关 内 容 。 


ロロ ロロ ロロ ロロ 


N 


11.1 概念 和 术语 


本 节 主 要 介绍 云 计 算 及 其 构件 的 基本 概念 。 


11.1.1 4 


云 是 指 ， 为 远程 提供 可 伸缩 和 可 度量 的 TT 资源 而 设计 的 独特 的 IT 环境 。 这 一 术语 
最 初 是 对 互联 网 的 一 种 隐喻 ， 用 来 描述 一 组 网 络 ， 这 些 网 络 提供 了 对 一 组 分 散 的 IT 资源 
的 远程 访问 。 在 云 计算 成 为 正式 的 IT 术语 之 前 , 在 基于 Web 体系 结构 的 各 种 规范 和 核心 
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文档 中 ， 云 通常 用 于 表示 互联 网 。 


11.1.2 IT 资源 


IT 资源 是 指 与 IT 相关 的 物理 或 虚拟 组 件 , 可 以 是 虚拟 服务 器 或 自 定义 软件 程序 这 一 
类 软件 ， 抑 或 物理 服务 器 或 网 络 设备 这 一 类 硬件 设施 。 


11.1.3 ”本 地 环境 


作为 一 种 独特 的 、 可 远程 访问 的 环境 ， 云 代表 了 部 署 IT 资源 的 一 种 选择 。 在 组 织 边 
界 内 (organizational boundary， 不 具体 体现 某 种 云 ) ， 托 管 于 传统 企业 中 的 IT 资源 视 为 
位 于 IT 企业 中 ， 或 者 是 受 控制 的 IT 环境 中 〈 并 非 基于 云 ) 。 该 术语 用 于 将 IT 资源 限定 
为 基于 云 的 替代 资源 。 本 地 的 IT 资源 不 能 基于 云 ， 反 之 亦 然 。 


11.14 云 使 用 者 和 云 供应 商 
云 供应 商 是 提供 了 基于 云 IT 资源 的 实体 ， 而 云 使 用 者 则 是 使 用 云 IT 资源 的 实体 。 
11.1.5 扩展 


扩展 表示 IT 资源 处 理应 用 需求 的 能 

1. 扩展 类 型 

扩展 一 般 涉及 以 下 几 种 类 型 。 

OQ 横向 扩展 : 内 外 扩展 。 

Q ”纵向 扩展 : 上 下 扩展 。 

(1) 横向 扩展 

分 配 或 释放 相同 类 型 的 IT 资源 称 为 水 平 扩展 。 其 中 , 资源 的 横向 分 配 称 作 向 外 扩展 ， 
而 资源 的 横向 释放 则 称 作 向 内 扩展 。 在 云 环 境 中 ， 横 向 扩展 则 是 一 种 较为 常见 的 扩展 
形式 。 

(2) 纵向 扩展 

当 现 有 资源 被 另 一 个 更 高 或 更 低 的 容量 所 替代 时 ， 即 会 产生 纵向 扩展 。 其 中 ， 利 用 
另 一 个 较 高 容量 资源 替换 IT 资源 称 作 向 上 扩展 ， 而 利用 较 低 容量 资源 替换 IT 资源 则 称 
作 向 下 扩展 。 考 虑 到 替换 下 载 时 间 问 题 ， 纵 向 扩展 在 云 环境 中 一 般 较 少 出 现 。 
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2. BARS 

虽然 云 是 一 类 远程 访问 环境 ， 但 云 内 的 所 有 资源 并 不 是 均 可 采用 远程 方式 被 访问 。 
例如 , 部署 于 云 中 的 数据 库 或 物理 服务 器 仅 可 通过 位 于 同一 云 内 的 其 他 IT 资源 予以 访问 。 
对 此 ， 可 专门 部 署 包含 发 布 API 的 软件 程序 ， 并 启用 远程 客户 端的 访问 功能 。 

云 服务 表示 为 任意 IT 资源 ， 并 可 通过 云 实现 远程 访问 。 与 涉及 服务 技术 的 其 他 IT 
领域 不 同 ， 例 如 面向 服务 架构 (SOA) ， 云 计算 环境 中 的 服务 其 范围 则 更 加 广泛 。 云 服 
务 可 作为 一 个 简单 的 Web 软件 程序 而 存在 ， 其 中 包含 了 通过 消息 传输 协议 调用 的 技术 接 
口 ; 或 者 作为 管理 工具 或 大 型 环境 的 远程 访问 点 。 

3. 云 服务 使 用 者 

云 服务 使 用 者 是 软件 程序 在 运行 期 间 访问 云 服 务 时 假定 的 临时 角色 。 

常见 的 云 服务 使 用 者 类 型 包括 : 通过 发 布 的 服务 契约 远程 访问 云 服 务 的 软件 程序 
和 服务 ， 以 及 工作 站 、 笔 记 本 电脑 、 移 动 设 备 〈 作 为 服务 ， 运 行 远程 访问 其 他 IT 资源 的 
软件 ) 。 


11.2 目标 和 收益 


与 批发 商 一 样 ， 公 共 云 提供 商 的 商业 模式 也 是 基于 对 IT 资源 的 大 规模 收购 ， 并 向 云 
使 用 者 提供 诱 人 的 价格 ， 这 有 助 于 机 构 在 不 需要 投入 任何 成 本 的 情况 下 访问 强大 的 基础 
设施 。 

对 于 云 IT 资源 来 说 ， 减 少 初始 IT 投资 是 最 为 常见 的 经 济 因 素 ， 例 如 硬件 、 软 件 的 
购买 以 及 运营 成 本 。 云 的 可 度量 应 用 特性 体现 为 一 个 特征 集 , 该 特征 集 允 许 运 营 支 出 (与 
业务 性 能 直接 相关 ) 取代 预期 的 资本 支出 ， 这 也 称 作 比例 成 本 。 

降低 成 本 可 以 让 企业 从 小 规模 做 起 ， 并 根据 需要 增加 相应 的 IT 资源 配置 。 此 外 ， 较 
低 的 初始 费用 允许 资本 重新 定向 到 核心 业务 投资 中 去 。 成 本 的 降低 主要 来 自 于 云 供应 商 
对 大 型 数据 中 心 的 部 署 和 运营 。 这 一 类 数据 中 心 通常 坐落 于 成 本 相对 较 低 的 区 域 ， 包 括 
地 价 、IT 专业 人 员 、 网 络 带 宽 等 。 

同样 的 道理 也 适用 于 操作 系统 、 中 间 件 、 平 台 软 件 以 及 应 用 软件 。 汇 集 的 IT 资源 可 
以 由 多 个 云 使 用 者 所 共享 ， 从 而 提高 或 优化 利用 率 。 通 过 优化 云 架 构 、 管 理 和 治理 方案 ， 
可 以 进一步 降低 运营 成 本 并 提高 生产 效率 。 

相应 地 ， 云 使 用 者 的 收益 主要 体现 在 以 下 几 个 方面 

ü “可 在 短期 内 ， 按 需 访问 即 付 即 用 的 计算 资源 《例如 按 小 时 收费 的 处 理 器 ) , JF 


・326・ Hadoop 大 数据 分 析 实 战 


在 不 需要 时 释放 这 些 计算 资源 。 
ü ”可 以 访问 无 限 的 计算 资源 ， 这 些 资源 可 以 根据 需要 使 用 ， 且 无 须 事 先 准备 。 
ü ”在 较为 基础 的 层次 上 添加 或 删除 IT 资源， 例如 以 千 光 字 节 增 量 的 方式 调整 可 用 
的 磁盘 存储 空间 。 
ü 支持 基础 结构 的 抽象 ， 以 使 应 用 程序 不 会 被 锁定 至 相关 设备 或 位 置 处 ， 必 要 时 ， 
还 可 方便 地 对 其 加 以 移动 。 
例如 ， 如 果 某 家 公司 需要 执行 大 量 的 批 处 理 任务 ， 那 么 ， 可 以 像 应 用 程序 软件 扩展 
那样 快速 地 完成 任务 。 使 用 100 台 服 务 器 /1 小 时 的 成 本 与 1 台 服 务 器 /100 小 时 的 成 本 基 
本 相同 。 在 不 需要 注入 大 量 的 初始 投资 的 情况 下 即 可 构建 大 规模 的 计算 基础 设施 ， 这 种 
IT 资源 的 弹性 颇具 吸引 力 。 
尽管 云 计算 的 优点 十 分 明显 ， 但 实际 的 经 济 学 计算 和 评估 过 程 可 能 十 分 复杂 。 云 计 
算 策 略 的 制定 所 涉及 的 问题 不 再 仅仅 是 租赁 成 本 和 购买 成 本 之 间 的 简单 比较 。 


11.21 可 扩展 性 的 提升 


通过 提供 IT 资源 池 ， 并 设计 综合 利用 此 类 资源 的 工具 和 技术 方案 ， 云 计算 可 根据 需 
要 或 者 使 用 云 消费 者 的 配置 内 容 ， 以 即时 、 动 态 方式 将 IT 资源 分 配 至 云 消费 者 。 这 使 
得 云 消费 者 可 适当 地 调整 基于 云 的 IT 资源 ， 并 通过 自动 或 手动 方式 适应 于 波动 或 峰值 
的 处 理 过 程 。 类 似 地 ， 随 着 处 理 需求 的 减少 ， 还 可 释放 基于 云 的 IT 资源 (通过 手动 或 自动 
方式 ) 。 

在 IT 资源 可 扩展 性 的 灵活 程度 方面 ， 云 平台 固有 的 内 在 特征 与 之 前 提 到 的 比例 成 本 
收益 直接 相关 。 除 了 规模 减少 所 带 来 的 财政 收益 之 外 ，IT 资源 满足 未 知 需求 的 能 力 还 可 
避免 出 现 使 用 闪 值 时 可 能 发 生 的 业务 损失 。 


11.2.2 ”可 用 性 和 可 靠 性 的 提升 


IT 资源 的 可 用 性 和 可 靠 性 与 业务 利益 直接 相关 。 对 于 客户 来 说 ， 运 行 中 断 限制 了 业 
务 的 开放 时 间 ， 因 而 在 使 用 和 收益 方面 也 将 大 打折 扣 。 在 大 容量 应 用 期 间 ， 运 行 故障 则 
会 带 来 更 大 的 影响 。 其 间 ，IT 资源 不 仅 不 能 响应 客户 的 请 求 ， 而 且 意 外 产生 的 故障 还 会 
降低 客户 的 整体 信心 。 

对 于 提升 云 环境 中 IT 资源 的 可 用 性 ， 进 而 最 小 化 甚至 是 消除 中 断 间 题 ， 典 型 的 云 环 
境 通常 可 给 予 广泛 的 支持 ， 这 也 是 其 体现 的 一 种 内 在 能 力 。 另 外 ， 可 靠 性 的 提升 还 可 使 
运行 期 故障 条 件 所 带 来 的 影响 降 至 最 低 。 
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特別 地 : 
O 在 提升 可 用 性 后 , IT 资源 将 可 在 更 长 的 时 间 内 予以 访问 〈 例 如 1 天 中 的 22 个 小 
时 ) 。 云 供应 商 通 常会 提供 具有 弹性 的 IT 资源 ， 进 而 可 保证 高 水 平 的 可 用 性 。 
ü ”具有 高 可 靠 性 的 IT 资源 可 有 效 地 消除 一 些 异常 条 件 ， 或 者 从 这 些 异 常情 况 中 了 予 
以 恢复 。 另 外 ， 云 环境 的 模块 化 体系 结构 还 支持 故障 转移 机 制 ， 从 而 进一步 提 
高 了 可 華 性 。 
需要 注意 的 是 ， 在 考虑 租用 基于 云 的 服务 和 YT 资源 时 ， 机 构 必 须 仔 细 检 查 云 供应 商 
提供 的 SLA。 尽 管 许多 云 环 境 均 可 提供 较 高 的 可 用 性 和 可 靠 性 , 但 SLA 提供 了 最 终 的 保 
证 ， 即 实际 的 合同 义务 。 


11.3 ”风险 和 挑战 


本 节 讨 论 云 计算 所 面临 的 几 项 关键 性 挑战 ， 这 些 挑 战 主要 与 公共 云 中 使 用 IT 资源 的 
消费 者 有 关 。 


11.3.1 安全 漏洞 


将 业务 数据 迁移 至 云 意味 着 数据 安全 这 一 类 责任 将 与 云 供应 商 所 共享 。IT 资源 的 远 
程 应 用 需要 云 使 用 者 扩展 信任 边界 ， 进 而 将 外 部 云 也 纳入 进来 。 考 虑 到 第 三 方 云 供应 商 
一 般 会 在 地 价 相对 便宜 ， 或 者 交通 方便 的 地 理 位 置 处 建立 数据 中 心 ， 因 而 难以 解决 多 区 
域 协调 性 以 及 法 律 方面 的 问题 。 当 采用 公共 云 进行 托管 时 ， 云 使 用 者 通常 并 不 了 解 IT 次 
源 和 数据 的 物理 位 置 。 对 于 某 些 机 构 来 说 ， 这 可 能 会 导致 与 行业 或 政府 法 规 相关 的 法 律 
问题 ， 相 关 法 律 规定 了 相应 的 数据 隐私 和 存储 策略 。 

考虑 到 多 重 边界 的 存在 ， 因 而 很 难 建立 切实 可 行 的 安全 体系 结构 ， 同 时 不 会 引入 任 
何 漏洞 ， 除 非 云 使 用 者 和 云 供应 商 恰好 支持 相同 或 兼容 的 安全 框架 。 然 而 ， 公 共 云 的 这 
种 兼容 机 制 通常 难以 实现 。 重 县 的 信任 边界 所 引发 的 另 一 个 问题 则 与 云 供应 商 和 云 使 用 
者 的 权限 访问 相关 。 当 前 ， 数 据 的 安全 程度 仅 限 于 云 使 用 者 和 云 供 应 商 所 用 的 安全 控制 
策略 。 除 此 之 外 ， 鉴 于 基于 云 的 IT 资源 一 般 处 于 共享 状态 ， 因 此 ， 不 同 的 云 使 用 者 之 间 
可 能 存在 重合 的 信任 边界 。 

信任 边界 的 重生 以 及 数据 暴露 问题 将 会 为 恶意 的 云 使 用 者 (采用 人 工 方式 或 自动 化 
方式 ) 提供 更 大 的 机 会 攻击 IT 資源 , RADR BOR ALS BE 0 BBE ERA 
需要 两 个 访问 相同 云 服 务 的 机 构 将 各 自 的 信任 边界 扩展 到 云 , 这 将 导致 重合 的 信任 边界 。 
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对 于 云 服务 供应 商 来 说 , 挑战 来 自 于 如 何 提供 能 够 满足 两 个 云 服务 使 用 者 需求 的 安全 机 制 。 
11.3.2 减少 运营 治理 控制 


通常 情况 下 ， 云 使 用 者 所 分 配 的 控制 级 别 一 般 低 于 本 地 IT 资源。 这 可 能 会 引发 下 列 
问题 : 云 供应 商 如 何 对 云 环境 进行 操控 ， 以 及 云 与 其 使 用 者 之 间 通 信 记 需 的 外 部 连接 。 


11.3.3 云 提供 商 之 间 有 限 的 可 移植 性 


由 于 在 云 计算 行业 中 缺乏 既定 的 行业 标准 ， 公 共 云 在 不 同 程度 上 通常 是 专 有 的 。 当 
用 户 依赖 于 专 有 环境 的 定制 解决 方案 时 ， 挑 战 来 自 于 云 供应 商 之 间 的 迁移 行为 。 


11.4 角色 和 边界 


根据 云 与 IT 资源 的 关系 和 交互 方式 ， 机 构 和 人 员 可 承担 不 同类 型 的 预定 义 角色 。 其 
中 ， 每 个 角色 都 会 参与 、 执 行 与 云 操作 相关 的 各 项 职责 。 下 面 将 对 这 一 类 角色 加 以 定义 ， 
并 确定 其 主要 的 交互 行为 。 


11.4.1 云 供应 商 


云 供 应 商 是 提供 基于 云 的 IT 资源 的 机 构 。 在 扮演 云 供应 商 这 一 角色 时 ， 该 机 构 负 责 
按照 协议 的 SLA 条 款 向 云 使 用 者 提供 云 服 务 。 同 时 ， 云 供应 商 还 将 进一步 承担 必要 的 管 
理 措施 和 管理 职责 ， 以 便 确保 整个 云 基础 设施 的 正常 运行 。 

云 供 应 商 一 般 持 有 云 使 用 者 租用 的 IT 资源 ， 相 应 地 ， 一些 云 供应 商 也 会 转卖 其 他 云 
供应 商 租 用 的 IT 资源 。 

1142 云 使用 者 


云 使 用 者 一 般 是 一 个 机 构 〈 或 个 人 ) ， 并 与 云 供应 商 签署 正式 的 合同 ， 或 者 与 云 供 
应 商 进行 协调 ， 进 而 使 用 云 供应 商 提供 的 IT 资源 。 


1143 ” 云 服务 持 有 者 


合法 拥有 云 服务 的 个 人 或 机 构 称 作 云 服务 持 有 者 。 云 服务 持 有 者 可 以 是 云 使 


du 


者 ， 
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或 者 是 拥有 云 服务 所 在 云 环境 的 提供 者 。 
1144 云 次 源 管理 見 


云 资源 管理 员 是 负责 管理 基于 云 的 IT 资源 (包括 云 服 务 ) 的 个 人 或 组 织 。 云 资源 管 
理 员 可 以 是 (或 隶属 于 ) 云 使 用 者 或 云 服务 的 提供 者 ; 或 者 ， 它 可 以 是 (或 隶属 于 ) 一 
个 第 三 方 组 织 ， 负 责 管 理 基 于 云 的 IT 资源 。 
1. 附加 角色 
NIST 的 云 计算 参考 体系 结构 定义 了 以 下 补充 角色 。 
O 云 审 计 者 : 对 云 环 境 进行 独立 评估 的 第 三 方 (通常 是 经 过 认证 的 ) ， 负 责 承 担 
云 审 计 者 的 角色 。 与 这 一 角色 相关 的 一 般 职责 包括 评估 安全 控制 、 隐 私 影响 和 
性 能 问题 。 云 审计 者 这 一 角色 的 主要 目的 是 为 云 环境 提供 公正 的 评估 (以 及 相 
关 认 证 ) ， 以 增强 云 消费 者 和 云 供应 商 之 间 的 信任 关系 。 
口 ZAH: 该 角色 由 管理 、 协 商 ( 云 使 用 者 和 云 供 应 商 间 的 ) 云 服务 应 用 的 一 方 
承担 。 云 代理 提供 的 中 介 服 务 包 括 服 务 中 介 、 聚 合 和 套利 。 
口 KZA: 云 运营 商 负责 在 云 使 用 者 和 云 供 应 商 之 间 提 供 连接 级 的 一 方 ， 一 般 
是 指 网 络 和 电信 供应 商 。 
2. 组 织 边界 
组 织 边界 表示 围绕 由 组 织 拥 有 和 管理 的 一 组 IT 资源 的 物理 边界 。 当 组 织 承担 云 使 用 
者 这 一 角色 访问 基于 云 的 IT 资源 时 ， 它 需要 将 信任 扩展 到 组 织 的 物理 边界 之 外 ， 以 包括 
部 分 云 环 境 。 
3. 信任 边界 
当 某 个 组 织 作 为 云 使 用 者 角色 访问 基于 云 的 IT 资源 时 ， 需 要 将 信任 扩展 到 组 织 的 物 
理 边 界 之 外 ， 以 包含 部 分 云 环境 。 


115 x 特 征 


IT 环境 需要 一 组 特定 的 特征 集 , 以 便 以 有 效 的 方式 远程 提供 可 伸缩 和 度量 的 I 资源 。 
大 多 数 云 环 境 均 具备 以 下 6 个 共同 特性 : 

O 投 需 使用 。 

口 无 处 不 在 的 访问 。 


・330・ Hadoop 大 数据 分 析 实 战 


O ”多 租户 机 制 《 和 资源 池 机 制 ) 。 
口 弾性 。 

Ch ”监测 应 用 状态 。 
a 

5. 


弹性 计算 。 
1 ERR 


云 使 用 者 可 以 单方 面 访问 基于 云 的 IT 资源 ， 并 可 自行 提供 这 些 IT 资源 。 待 配置 完 
毕 后 ， 即 可 自动 使 用 自给 的 YT 资源 ， 从 而 降低 与 云 使 用 者 或 云 供应 商 间 的 人 员 合作 。 这 
将 产生 一 种 按 需 使 用 的 环境 。 这 种 特性 也 称 为 按 需 自助 服务 使 用 ， 它 支持 主流 云 中 基于 
服务 和 应 用 驱动 的 特性 。 


11.5.2 无 处 不 在 的 访问 

这 体现 了 云 服务 广泛 的 访问 能 力 。 为 云 服务 建立 此 类 访问 机 制 需要 获得 设备 、 传 输 
协议 、 接 口 和 安全 技术 方面 的 支持 。 该 访问 级 别 通常 需要 云 服务 体系 结构 适应 不 同 云 服 
务 使 用 者 的 特定 需求 。 
11.5.8 ”多 租户 机 制 〈 和 资源 池 机 制 ) 


软件 程序 的 特性 之 一 是 程序 的 一 个 实例 能 够 服务 于 不 同 的 使 用 者 〈 租 户 ) ， 因 此 它 
们 彼此 间 是 孤立 的 ， 这 被 称 为 多 租户 机 制 。 云 供应 商 将 其 IT 资源 置 入 池 中 ， 以 便 对 多 个 
云 服务 使 用 者 提供 服务 。 也 就 是 说 ， 使 用 多 租户 模型 ， 该 模型 依赖 于 虚拟 化 技术 。 通 过 
多 租户 技术 ，IT 资源 可 根据 云 服 务 使 用 者 需求 动态 地 分 配 和 重新 分 配 。 


11.5.4 弾性 

弹性 是 指 云 的 自动 化 能 力 ， 可 根据 运行 期 条 件 或 者 云 使 用 者 、 供 应 商 预先 决定 的 需 
求 透明 地 扩展 IT 资源 。 弹 性 通常 被 认为 是 云 计算 应 用 的 一 个 关键 因素 ， 主 要 是 因为 它 与 
所 减少 的 投资 和 比例 成 本 收益 密切 相关 。 拥 有 大 量 IT 资源 的 云 提供 商 可 以 提供 最 大 范围 
的 弹性 。 
11.5.5 ”监测 应 用 状态 


这 表示 云 平台 能 够 跟踪 其 IT 资源 (主要 由 云 使 用 者 使 用 ) 的 使 用 情况 。 基 于 所 监测 
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的 内 容 ， 云 供应 商 只 能 根据 实际 使 用 的 IT 资源 和 /或 对 IT 资源 授权 访问 的 时 间 帧 向 云 使 
用 者 收费 。 在 这 种 情况 下 ， 测 量 的 用 法 与 按 需 特性 密切 相关 。 


11.5.6 ”弹性 计算 


弹性 计算 可 视 为 一 种 故障 转移 形式 ， 它 在 物理 位 置 之 间 分 布 元 余 的 I 资源 实现 。 相 
应 地 , 可 以 预先 配置 IT 资源 , 以 便 在 出 现 不 足 时 , 自动 将 处 理工 作 移交 给 另 一 个 元 余 实现 。 
在 云 计 算 中 ， 弹 性 特性 可 以 指 同一 云 〈 但 在 不 同 物理 位 置 ) 或 跨 多 个 云 的 见 余 IT 资源 。 


11.6 云 交付 模型 


对 于 云 供应 商 提 供 的 IT 资源 ， 云 交付 模型 表示 其 特定 的 、 预 先 打包 的 组 合 。 对 此 ， 
存在 3 种 常见 的 云 交付 模型 ， 已 被 广泛 建立 并 予以 形式 化 ， 如 下 所 示 : 

口 IaaS. 

Q PaaS. 

Q SaaS. 


11.6.1 基础 设施 即 服务 


IaaS 交付 模型 表示 一 个 独立 的 IT 环境 ， 它 包含 以 基础 设施 为 中 心 的 IT 资源 ， 可 以 
使 用 基于 云 服务 的 接口 、 工 具 访 问 和 管理 这 些 资 源 。 该 环境 可 包含 硬件 、 网 络 、 连 接 、 
操作 系统 和 其 他 原始 IT 资源 。 与 传统 的 托管 或 外 包 环境 不 同 ， 通 过 aas, IT 资源 通常 被 
虚拟 化 并 被 打包 成 束 ， 从 而 简化 了 基础 设施 的 运行 期 扩展 和 定制 行为 。 

IaaS 的 主要 目标 是 ， 在 配置 和 应 用 方面 ， 向 云 使 用 者 提供 较 高 的 控制 能 力 和 相关 职 
3i. aaS 提供 的 IT 资源 通常 未 经 预先 配置 ， 而 是 直接 将 管理 责任 交付 至 云 使 用 者 。 该 模 
型 将 被 云 消费 者 使 用 ， 进 而 对 所 创建 的 云 环境 予以 控制 。 

某 些 时 候 ， 云 供应 商会 从 其 他 云 供应 商 那里 获得 TaaS 产品 ， 以 扩展 自己 的 云 环境 。 
相应 地 ， 对 于 不 同 云 供 应 商 提供 的 laas 产品 ， 其 IT 资源 的 类 型 和 品牌 也 可 能 有 所 不 同 。 
基于 Iaag 环境 的 IT 资源 一 般 作为 初始 化 的 虚拟 实例 予以 提供 。 在 典型 aaS 环境 中 ， 主 
要 的 核心 IT 资源 是 虚拟 服务 器 。 


11.6.2 平台 即 服 务 


PaaS 交付 模型 表示 一 个 预定 义 的 、 随 时 可 用 的 环境 , 通常 由 已 经 部 署 和 配置 的 IT 资 
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MAR. RER, Paas 依赖 于 现 有 环境 的 使 用 (并 以 此 加 以 定义 ) ， 该 环境 建立 了 一 

组 预先 打包 的 产品 和 工具 ， 用 于 支持 定制 应 用 程序 的 整个 交付 生命 周期 。 

在 PaaS 中 ， 云 使 用 者 的 应 用 和 投资 主要 涉及 以 下 几 方面 内 容 : 

出 于 可 伸缩 性 和 经 济 目的 ， 云 使 用 者 希望 将 内 部 环境 扩展 到 云 。 

云 使 用 者 通过 现成 的 环境 完全 蔡 代 本 地 环境 。 

云 使 用 者 也 希望 成 为 云 提供 者 ， 并 部 署 自己 的 云 服务 以 供 其 他 外 部 云 使 用 者 

使 用 。 
当 在 一 个 现成 的 平台 中 工作 时 ， 对 于 使 用 TaaS 模型 建立 和 维护 IT 资源 的 基础 设施 

云 消费 者 可 以 消除 其 间 的 管理 负担 。 


11.6.3 ”软件 即 服务 


一 个 定位 于 共享 云 服务 , 并 作为 产品 或 通用 工具 的 软件 程序 体现 了 SaaS 的 典型 特征 。 
SaaS 交付 模型 通常 用 于 将 可 重用 的 云 服 务 〈 通 常 是 商业 上 的 服务 ) 广泛 提供 给 一 系列 的 
云 消费 者 。 围 绕 Saas 产品 存在 着 一 个 完整 的 市 场 ， 并 可 针对 不 同 的 目的 对 其 加 以 租用 、 
使 用 。 一 般 情 况 下 ， 云 使 用 者 仅 对 Saas 包含 有 限 的 管理 控制 权限 ， 此 类 权限 通常 由 云 供 
应 商 提供 ， 但 是 它 可 以 由 担任 云 服务 持 有 者 角色 的 任何 实体 合法 拥有 。 例 如 ， 如 果 某 个 
组 织 机 构 作为 云 使 用 者 并 与 PasA 环境 协同 工作 ， 即 可 构建 一 个 云 服 务 ， 同 时 将 其 部 署 到 
与 SaaS 产品 相同 的 环境 中 。 随 后 ， 同 一 个 组 织 可 有 效 地 承担 云 供 应 商 这 一 角色 ， 因 为 在 
使 用 该 云 服 务 时 ， 基 于 SaaS 的 云 服务 可 充当 云 使 用 者 的 其 他 组 织 。 


11.6.4 整合 云 交付 模型 


LGR 3 种 基本 的 云 交 付 模型 构成 了 一 个 自然 的 层次 结构 ， 并 可 对 模型 应 用 加 以 整合 。 
下 面 将 简要 介绍 两 种 常见 的 组 合 模 式 。 

1. laaS+PaaS 

PaaS 环境 将 建立 在 与 物理 和 虚拟 服务 器 ， 以 及 aaS 环境 中 提供 的 其 他 IT 资源 类 似 
的 底层 基础 设施 之 上 。 

2. laaS+PaaS+SaaS 

这 3 种 云 交 付 模型 可 进行 适当 组 合 ， 进 而 构建 彼此 间 的 IT 资源 层 。 例 如 ， 通 过 添加 
到 前 述 分 层 体系 结构 中 ，PaaS 环境 提供 的 现 有 环境 可 以 被 云 消费 者 组 织 机 构 用 于 开发 和 
部 署 自己 的 SaaS 云 服 务 ， 然 后 将 其 作为 商业 产品 予以 提供 。 


口 口 口 
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图 11.1 显示 了 IaaS. PaaS 和 SaaS 中 的 各 层 结构 。 
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11.7 云 部 署 模型 


云 部 署 模 型 表示 特定 类 型 的 云 环 境 ， 主 要 根据 所 有 权 、 大 小 和 访问 方式 加 以 区 分 。 
下 面 将 讨论 以 下 4 种 常见 的 云 部 署 模型 : 


Q 23m. 
QO 社区 云 。 
口 私有 云 。 
U WEZ. 


公共 云 是 第 三 方 云 供应 商 拥有 的 可 公开 访问 的 云 环 境 。 公 共 云 上 的 IT 资源 通常 使 用 
前 述 云 交 付 模 型 提供 ， 通 常 以 一 定 的 成 本 提供 给 云 使 用 者 ， 或 者 通过 其 他 途径 〈 如 广告 ) 
实现 商业 化 操作 。 
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云 供应 商 负责 公共 云 及 其 IT 资源 的 创建 和 持续 维护 。 后 续 章节 中 的 一 些 场景 和 体系 
结构 均 会 涉及 公共 云 ， 以 及 公共 云 IT 资源 供应 商 和 使 用 者 之 间 的 关系 。 


11.7.2 ”社区 云 


社区 云 与 公共 云 类 似 ， 只 是 它 的 访问 仅 限于 特定 的 云 使 用 者 社区 。 社 区 云 可 以 由 社 
区 成 员 共 同 拥有 ， 也 可 以 由 提供 有 限 访问 权限 的 公共 云 的 第 三 方 云 供应 商 拥 有 。 社 区 中 
的 云 使 用 者 通常 会 共同 分 担 社区 云 的 定义 和 改进 职责 。 

社区 成 员 身份 并 不 一 定 能 够 保证 访问 或 控制 云 的 所 有 IT 资源 。 除 非 社区 允许 ， 否 则 
社区 以 外 的 各 方 通常 不 被 允许 访问 。 


11.7.33 MAZ 


私有 云 由 单个 组 织 机 构 拥 有 。 私 有 云 使 机 构 能 够 使 用 云 计 算 技术 ， 并 对 IT 资源 的 访 
问 汇集 至 机 构 的 不 同 部 分 、 位 置 或 部 门 。 当 私有 云 作 为 受 控 环境 存在 时 ， 第 3 章 中 描述 
的 问题 将 不 复 存 在 。 
使 用 私有 云 可 以 改变 组 织 和 信任 边界 的 定义 和 应 用 。 私 有 云 环境 的 实际 管理 行为 可 
能 由 内 部 或 外 包 人 员 执 行 。 

对 于 私有 云 ， 同 一 组 织 在 技术 上 既是 云 使 用 者 又 是 云 供应 商 。 为 了 区 分 这 些 角 色 ， 
应 注意 以 下 几 点 内 容 

口 “ 一 个 独立 的 组 织 部 门 通常 负责 提供 云 〈 因 此 承担 云 供 应 商 这 一 角色 ) 。 

OQ ”需要 访问 私有 云 的 部 门 承担 云 使 用 者 这 一 角色 。 
9 :s. 

组 织 内 部 环境 中 的 云 服务 使 用 者 通过 虚拟 专用 网 络 访问 位 于 同一 组 织 的 私有 云 上 的 云 
服务 。 

在 私有 云 环境 中 ， 正 确 地 使 用 术语 “本 地 ”和 “ 云 ” 是 十 分 重要 的 。 尽 管 私 有 云 可 
能 实际 驻 留 在 组 织 机 构 的 空间 中 ， 但 只 要 云 使 用 者 能 够 对 其 进行 远程 访问 ， 它 所 承载 的 
IT 资源 仍然 被 认为 是 基于 云 的 。 因 此 ， 相 对 于 基于 私有 云 的 IT 资源 而 言 ， 托 管 在 私有 云 
之 外 的 IT 资源 仍 被 认为 是 本 地 资源 。 


11.7.4 混合 云 


混合 云 是 由 两 个 或 多 个 不 同 的 云 部 署 模型 组 成 的 云 环 境 。 例 如 ， 云 使 用 者 可 以 选择 
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将 处 理 敏 感 数据 的 云 服务 部 署 到 私有 云 中 ， 而 将 其 他 不 太 敏 感 的 云 服务 部 署 到 公共 云 中 ， 
这 种 组 合 结果 称 作 混 合 部 署 模型 。 
图 11.2 显示 了 一 个 使 用 混合 云 架构 的 组 织 机 构 ， 其 中 同时 使 用 了 私有 云 和 公共 云 。 


图 11.2 
考虑 到 云 环境 中 的 潜在 差异 ， 以 及 管理 职责 通常 在 私有 云 供应 商 和 公共 云 供应 商 之 


间 进 行 划分 ， 因 此 ， 混 合 部 署 体系 结构 的 创建 和 维护 可 能 非常 复杂 且 鼎 具 挑 战 性 。 
11.8 本 章 


本 章 讨 论 了 云 计算 以 及 理解 、 实 现 该 技术 的 关键 技术 。 
第 12 章 将 介绍 一 家 较为 流行 的 云 供应 商 ， 即 Amazon 的 AWS。 


第 12 章 使 用 亚马逊 Web 服务 


本 章 讨论 AWS 及 其 服务 等 概念 。. 当 在 AWS 云 中 设置 Hadoop 集群 时 ,针对 基于 Elastic 
MapReduce (EMR ) 的 大 数据 分 析 过 程 ， 这 些 概念 将 会 十 分 有 用 。 除 此 之 外 ， 我 们 还 将 
学 习 AWS 提供 的 一 些 关键 组 件 和 服务 ， 进 而 了 解 AWS 组 件 和 服务 的 各 项 功能 。 

本 章 主 要 涉及 以 下 主题 : 

Amazon Elastic Compute Cloud. 
从 AMI 中 启用 多 个 实例 。 

AWS Lambda。 

Amazon S3 简介 。 

Amazon DynamoDB 。 

Amazon Kinesis Data Stream. 
AWS Glue. 

Amazon EMR. 


ロロ ロロ ロロ ロロ 


12.1 Amazon Elastic Compute Cloud 


Amazon Elastic Compute Cloud ( Amazon EC2) 是 一 项 Web 服务 ， 并 可 在 云 中 提供 安 
全 、 可 调整 大 小 的 计算 能 力 , 其 设计 目的 是 让 开发 人 员 更 容易 地 进行 Web 级 别 的 云 计算 。 

Amazon EC2 的 简单 Web 服务 接口 使 我 们 可 轻松 地 获取 和 配置 容量 ， 并 提供 了 对 计 
算 资源 的 完全 控制 ， 进 而 可 使 用 Amazon 的 计算 环境 。Amazon EC2 将 获取 和 启动 新 服务 
器 实例 所 需 的 时 间 缩 短 为 几 分 钟 ， 并 可 在 计算 需求 发 生变 化 时 快速 扩展 容量 (上 、 下 方 
向 ) 。Amazon EC2 还 可 节省 计算 成 本 ， 且 只 需要 为 实际 使 用 的 容量 付费 。 另 外 ，Amazon 
EC2 为 开发 人 员 提供 了 构建 具有 故障 恢复 能 力 的 应 用 程序 工具 ， 并 将 它们 与 常见 的 故障 
场景 隔离 开 来 。 


12.1.1 弹性 Web 计算 
Amazon EC2 可 在 几 分 钟 内 增加 或 减少 容量 ， 还 可 以 同时 委托 一 个 或 多 个 服务 器 实 


例 。 此 外 ， 还 可 使 用 Amazon EC2 Auto Scaling 维护 EC2 Fleet 的 可 用 性 ， 并 根据 需要 在 
上 、 下 方向 上 自动 扩展 Fleet， 进 而 实现 性 能 的 最 大 化 和 成 本 的 最 小 化 。 当 对 多 项 服务 进 
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行 扩展 时 ， 还 可 使 用 AWS Auto Scaling。 
12.1.2 ”对 操作 的 完整 控制 

我 们 可 以 对 实例 实施 整体 控制 ， 包 括 根 访问 ， 进 而 像 其 他 机 器 那样 与 其 进行 交互 ， 
并 在 启动 分 区 上 保留 数据 的 同时 终止 任何 实例 的 运行 , 然后 使 用 Web 服务 API 重新 启动 
相同 的 实例 。 除 此 之 外 ， 还 可 以 使 用 Web 服务 API 远程 重启 实例 ， 并 访问 它们 的 控制 台 
12.1.3 ”灵活 的 云 托管 服务 


用 户 可 以 选择 多 个 实例 类 型 、 操 作 系统 以 及 软件 包 。 相 应 地 ，Amazon EC2 还 可 针对 
内 存 、CPU、 实 例 存储 和 启动 分 区 等 配置 进行 选择 ， 进 而 优化 操作 系统 和 应 用 程序 选项 。 
例如 ， 在 操作 系统 方面 ， 可 选取 各 种 Linux 和 Microsoft Windows Server 版 本 。 


12.1.4 集成 


Amazon EC2 集成 了 大 多数 AWS 服务 ,例如 Amazon Simple Storage Service (Amazon 
S3) 、 Amazon 关系 数据 库 服 务 (Amazon RDS) 和 Amazon 虚拟 私有 云 (Amazon VPC) , 
进而 为 各 种 应 用 程序 的 计算 、 查 询 处 理 和 云 存储 提供 完整 、 安 全 的 解决 方案 。 
12.1.5 ”高 可 靠 性 


Amazon EC2 提供 了 一 个 高 度 可 靠 的 环境 , 并 可 于 其 中 快速 \ 可 预测 地 委托 替换 实例 。 
这 一 项 服务 在 亚马逊 经 过 验证 的 网 络 基础 设施 和 数据 中 心 内 运行 。 同 时 ，Amazon EC2 服 
务 级 别 协议 (SLA) 为 每 个 Amazon EC2 区 域 提供 了 99.99% 的 可用性 。 


1216 安全 性 

AWS 的 云 安 全 是 重 中 之 重 。 对 于 满足 安全 敏感 组 织 的 需求 而 构建 的 数据 中 心 和 网 络 
体系 结构 ，AWS 客户 将 受益 良 多 。Amazon EC2 可 与 Amazon VPC 一 起 协同 工作 ， 从 而 
为 计算 资源 提供 安全 和 健壮 的 网 络 功能 。 
12.1.7 ”经济 性 


通过 Amazon EC2， 用 户 可 从 Amazon 规模 效应 中 获取 经 济 受益 ， 同 时 仅 需 为 实际 消 
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耗 的 计算 能 力 支付 很 低 的 费用 。 关 于 Amazon EC2 的 更 多 实例 购买 选项 ， 读 者 可 访问 
https://aws.amazon.com/ec2/pricing/ 以 了解 更 多 内 容 。 


1218 “易于 启动 


存在 多 种 方式 可 启动 Amazon EC2, 具体 包括 AWS Management Console, AWS 命令 
TLR (通过 CLI 获得 ， 即 命令 行 接口 ) , 或 者 使用 AWS SDK (软件 开发 工具 包 ) 。 
AWS 的 启动 和 操作 过 程 十 分 简单 ， 读 者 可 访问 相关 教程 以 了 解 更 多 内 容 ， 对 应 网 址 为 


https://aws.amazon.com/getting-started/tutorials/。 


12.1.9” 亚 马云 及 其 镜像 


亚马逊 机 器 镜像 (AMI) 表示 为 一 个 模板 ， 并 包含 了 相应 的 软件 配置 内 容 ( 例 如 操 
作 系 统 、 应 用 程序 服务 器 和 应 用 程序 ) 。 我 们 可 从 AMI 中 启用 一 个 实例 ， 即 作为 云 虚 拟 
服务 器 运行 的 AMI 副本 。 此 外 ， 还 可 启用 多 个 AMI 实例 ， 如 图 12.1 所 示 。 


C2 Dashboard Resources 
Events ‘ 
ai You are using tha following Amazon EC? resources in the US East (N. Virginia) reglon: 
ugs 
Reports 0 Elastic IPs 
Limits 0 Snapshots 
0 Load Balancers 
1 Key Pairs 4 Security Groups. 
Instances 
0 Placement Groups. 
Launch Templates 
Spot Requests. 
Reserved Instances 
Dedicated Hosts 


Scheduled Instances Create Instance 


Learn more about the latest in AWS Compute from AWS re:invent 2017 by viewing the EC2 Videos. 


To start using Amazon EC2 you will want to launch a virtual server, know 


m 


Volumes 


‘Snapshots Service Health C Scheduled Events 


g wer Service Status: US East (N. Virginia]: 
Security Groups っ US East (N. Virginia): Nem 
Elastic IPs This service is operating normally 
Placement t Groups ‘Availability Zone Status: 
Key Pairs 
っ useast-ta 
Network Interfaces ‘Availabilty zone is operating normally 
art ici us-east-1b: 
Load Balancers Availablity zone is operating normally 
Target Groups っ Useast-1c 
Availability zone is operating normally 


Launch Configurations ^» us-east-td 


图 12.1 
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122 ”启用 多 个 AMI 实例 


除非 终止 实例 的 运行 状态 ， 或 者 实例 出 现 某 种 故障 ， 否 则 ， 实 例 将 一 直 处 于 运行 状 
态 。 如 果实 例 出 现 故 障 ， 则 可 从 AMI 中 启动 一 个 新 的 实例 。 


12.2.1 实例 


我 们 可 从 单一 AMI 中 启动 不 同 的 实例 类 型 。 本 质 上 ， 实 例 类 型 决定 了 实例 所 用 的 主 
机 硬件 ， 每 个 实例 类 型 提供 了 不 同 的 计算 机 和 内 存 功能 。 因 此 ， 可 根据 应 用 程序 所 需 的 
内 存量 和 计算 能 力 ， 或 者 计划 运行 于 实例 上 的 软件 选择 相应 的 实例 类 型 。 针 对 每 种 
Amazon EC2， 读 者 可 访问 https://aws.amazon.com/ec2/instance-types/ 以 了 解 更 多 硬件 规范 
方面 的 信息 。 

在 启用 了 某 个 实例 后 ， 它 看 起 来 像 是 一 个 传统 的 主机 ， 并 可 像 与 任何 计算 机 一 样 与 
其 进行 交互 。 同 时 ， 还 可 以 完全 控制 实例 ， 并 使 用 sudo 运行 需要 根 权 限 的 命令 。 


12.2.2 AMI 


AWS 发 布 了 多 个 AMI, 这 些 AMI 包含 了 针对 公共 应 用 的 通用 软件 配置 。 此外, AWS 
开发 社区 的 成 员 已 经 发 布 了 自己 的 定制 AMI。 除 此 之 外 ， 还 可 以 创建 自 定 义 AMI， 并 可 
快速 、 轻 松 地 启动 拥有 所 需 一 切 的 新 实例 。 例如， 如 果 应 用 程序 是 一 个 网 站 或 Web 服务 ， 
AMI 可 以 包含 一 个 Web 服务 器 、 关 联 的 静态 内 容 和 动态 页 面 的 代码 。 因 此 ， 在 从 AMI 
启动 实例 之 后 ，Web 服务 器 即 会 启动 ， 应 用 程序 就 可 以 接受 请 求 了 。 

全 部 AMI 基 于 Amazon EBS 被 分 类 , 这 表示 从 AMI 启 动 的 实例 根 设备 是 Amazon EBS 
卷 ; 或 者 由 实例 存储 所 支持 ， 这 意味 着 ， 从 AMI 启动 的 实例 的 根 设备 是 由 Amazon S3 中 
存储 的 模板 创建 的 实例 存储 卷 。 


12.2.3 区 域 和 可 用 区 


Amazon EC2 在 全 球 多 个 地 点 被 托管 ， 这 些 位 置 由 区 域 和 可 用 区 组 成 。 其 中 ， 每 个 区 
域 都 表示 为 一 个 单独 的 地 理 区 域 ， 每 个 区 域 都 包含 多 个 称 为 可 用 区 的 独立 位 置 。Amazon 
EC2 提供 了 将 实例 和 数据 等 资源 放置 在 多 个 位 置 的 能 力 。 除 非特 别 需 要 ， 和 否则 资源 不 会 
跨 区 域 复制 。 
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亚马逊 运营 着 最 先进 的 、 具 有 高 可 用 性 数据 中 心 。 注 意 ， 故 障 仍 会 出 现 ， 并 对 位 于 
同一 位 置 的 实例 的 可 用 性 带 来 影响 ， 尽 管 这 种 情况 较 少 发 生 。 如 果 将 所 有 实例 均 托 管 在 
一 个 受 此 故障 影响 的 位 置 ， 则 所 有 实例 均 处 于 不 可 用 状态 。 


12.2.4 区域 和 可 用 区 概念 
每 个 区 域 完全 独立 ， 每 个 可 用 区 处 于 隔离 状态 ， 但 是 某 个 区 域 中 的 可 用 区 通过 低 延 


迟 的 链接 进行 连接 。 
图 12.2 显示 了 区 域 和 可 用 区 之 间 的 关系 。 


亚马逊 Web 服务 


图 12.2 


12.2.5 区域 


每 个 Amazon EC2 区 域 都 被 设计 成 与 其 他 Amazon EC2 区 域 完全 隔离 ， 这 可 以 实现 最 
大 的 容错 性 和 稳定 性 。 

当 查 看 资源 时 ， 将 只 会 看 到 与 指定 区 域 相 关联 的 资源 ， 其 原因 在 于 ， 区 域 之 间 是 相 
互 隔离 的 ， 因 而 不 会 自动 地 跨 区 域 复制 资源 。 


12.2.6 可 用 区 


当 启 动 一 个 实例 时 ， 可 以 选择 一 个 可 用 区 或 分 配 一 个 可 用 区 。 如 果 将 实例 分 布 在 多 
个 可 用 区 域 中 ， 且 某 个 实例 出 现 故 障 ， 则 可 以 设计 相应 的 应 用 程序 ， 使 另 一 个 可 用 区 中 
的 实例 能 够 处 理 请 求 。 

此 外 ， 还 可 使 用 弹性 TP 地 址 ， 通 过 快速 将 地 址 重新 映射 到 另 一 个 可 用 区 中 的 实例 
来 掩盖 某 个 可 用 区 中 的 实例 故障 。 读 者 可 访问 https://docs.aws.amazon.com/AWSEC2/ 
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latest/UserGuide/elastic-ip-addresses-eip.html 以 了 解 更 多 信息 。 
12.2.7 可 用 区 域 


用 户 的 账号 决定 了 可 以 使 用 的 区 域 。 例 如 ，AWS 提供 了 多 个 区 域 ， 以 便 在 满足 相关 
位 置 条 件 的 基础 上 启动 Amazon EC2 实例 。 又 如 ， 用 户 可 能 希望 在 欧洲 启动 实例 ， 以 便 
更 加 接近 欧洲 客户 ， 抑 或 满足 相关 的 法 律 条 文 。 

AWS GovCloud (US) 账号 仅 提供 了 AWS GovCloud (US) 区 域 的 访问 权限 。 对 此 ， 
读者 可 参考 AWS GovCloud (US) Region 以 查阅 更 多 信息 。 

K 12.1 列 出 了 AWS 账号 提供 的 相关 区 域 。 


表 12.1 


区 域 名 | 区 S | 端点 | 协 X 
US East (Ohio HTTPS 
US East (N. Virginia) rds.us-east-1.amazonaWs.com HTTPS 
US West (N. California) HTIPS 
US West (Oregon HTTPS 
Asia Pacific (Tokyo) HTIPS 


Asia Pacific (Seoul) 1ds.ap-northeast-2.amazonaws.com HTTPS 
Asia Pacific (Osaka-Local HTTPS 
Asia Pacific (Mumbai) | apsouh-1 | 1ds.ap-south-1.amazonaws.com HTTPS 


Asia Pacific (Singapore ap-southeast-1 rds.ap-southeast-1.amazonaws.com HTTPS 
Asia Pacific (Sydne HTTPS 


Canada (Central) ca-central-1 1ds.ca-central-1.amazonaws.com HTTPS 
China (Beijing cn-north-1 rds.cn-north- l.amazonaws.com.cn HTTPS 
China (Ningxia) cn-northwest-1 | rds.cn-northwest-1.amazonaws.com.cn HTTPS 
EU (Frankfurt) eu-central-1 rds.eu-central-1] amazonaws.com HTTPS 
EU (Ireland eu-west-1 rds.eu-west-1.amazonaws.com HTTPS 


EU (London) eu-West-2 1ds.eu-west-2.amazonaws.com HTTPS 


EU (Paris) eu-West-3 1ds.eu-west-3.amazonaws.com HTTPS 


South America (SaoPaulo) | sa-east-1 rds.sa-east-1.amazonaWs.com HTTPS 


12.2.8 区 域 和 端 点 


当 与 使 用 命令 行 接口 或 API 操作 的 实例 协同 工作 时 ， 需 要 指定 其 区 域 端点 。 关 于 
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Amazon EC2 的 区 域 和 端点 ， 读 者 可 访问 https://docs.aws.amazon.com/general/latest/gr/ 
rande.html 以 了 解 更 多 信息 。 


1229 ”实例 类 型 


当 启 动 一 个 实例 时 ， 所 指定 的 实例 类 型 确定 了 用 于 该 实例 的 主机 硬件 。 每 个 实例 类 
型 提供 了 不 同 的 计算 机 、 内 存 和 存储 功能 ， 并 根据 实际 功能 被 分 组 至 实例 族 中 。 相 应 地 ， 
可 根据 计划 运行 于 实例 上 的 应 用 程序 或 软件 的 需求 条 件 选取 某 个 实例 类 型 。 

1. 标签 

标签 可 通过 不 同方 式 对 AWS 资源 进行 分 类 , 例如 通过 用 途 、 持 有 者 或 环境 。 当 拥有 
同一 类 型 的 大 量 资源 时 ， 这 将 十 分 有 用 一 一 可 根据 所 分 配 的 标签 快速 识别 特定 的 资源 。 
每 个 标签 由 一 个 键 和 可 选 的 数值 构成 , 且 需 要 对 此 加 以 定义 ,例如 , 可 针对 账号 的 Amazon 
EC2 实例 定义 一 组 标签 ， 进 而 跟踪 每 个 实例 的 持 有 者 和 栈 深度 。 

2. Amazon EC2 密 钥 对 

Amazon EC2 使 用 公 钥 加 密 对 登录 信息 进行 加 密 和 解密 。 公 钥 密码 技术 使 用 公 钥 加 密 
数据 片段 (如 密码 ) ， 然 后 接收 方 使 用 私 钥 解密 数据 。 公 钥 和 私 钥 称 作 密 钥 对 。 

3. 针对 Linux 实例 的 Amazon EC2 安全 组 

安全 组 可 充当 虚拟 防火 墙 ， 并 控制 一 个 或 多 个 实例 的 流量 。 在 启动 实例 时 ， 需 要 将 
一 个 或 多 个 安全 组 与 实例 相关 联 。 用 户 可 向 支持 流量 的 安全 组 〈 或 者 从 所 关联 的 实例 ) 
中 添加 各 项 规则 ， 并 可 在 任意 时 刻 修改 安全 组 的 规则 。 一 段 时 间 后 ， 新 的 规则 将 自动 应 
用 于 与 安全 组 关联 的 所 有 实例 上 。 当 确定 是 否 人 允许 流量 到 达 某 个 实例 时 ， 可 对 实例 关联 
的 所 有 安全 组 中 的 全 部 规则 进行 评估 。 

4. 弹性 IP 地址 

弹性 TP 地 址 是 一 种 针对 动态 云 计算 而 设计 的 静态 IPv4 地 址 ， 并 与 AWS 账号 进行 关 
Jk. 利用 弹性 了 PP 地址， 可 通过 迅速 地 将 该 地 址 重新 映射 至 另 一 个 账号 中 的 实例 ， 进 而 掩 
盖 实 例 故 障 。 


12.2.10 Amazon EC2 和 亚马逊 虚拟 私有 云 


Amazon VPC 可 在 AWS 云 中 的 逻辑 隔离 区 域 ( 称 为 VPC) 中 定义 虚拟 网 络 。 具 体 来 
说 ， 可 在 VPC 中 启用 AWS 资源 (例如 实例 ) 。 这 里 ，VPC 与 传统 的 网 络 非 常 类 似 ， 用 
户 可 以 在 自己 的 数据 中 心中 进行 操作 , 这 得 益 于 使 用 AWS 的 可 伸缩 基础 设施 。 用 户 可 以 
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配置 VPC、 选 择 其 TP 地 址 范围 、 创 建 子 网 ， 并 配置 路 由 表 、 网 络 网 关 和 安全 设置 。 另 外 ， 
还 可 将 VPC 中 的 实例 连接 到 互联 网 , 或 者 将 VPC 连接 到 公司 数据 中 心 ， 以 使 AWS 云 成 
为 数据 中 心 的 扩展 。 为 了 保护 每 个 子 网 中 的 资源 ， 此 处 可 以 使 用 多 个 安全 层 ， 包 括 安 全 
组 和 网 络 访问 控制 列表 。 对 此 ， 读 者 可 访问 https://aws.amazon.com/documentation/vpc/ LJ. 
了 解 更 多 信息 。 


1. Amazon Elastic Block Store 


Amazon Elastic Block Store (Amazon EBS ) 提 供与 EC2 实例 协同 使 用 的 块 级 存储 卷 。 
EBS 卷 是 高 度 可 用 和 可 靠 的 存储 卷 ， 可 以 连接 到 同一 可 用 区 中 的 任何 运行 实例 。 连 接 到 
EC2 实例 的 EBS 卷 作为 存储 卷 被 公开 , 且 独 立 于 实例 的 生命 周期 而 存在 ,在 Amazon EBS 
中 ， 仅 需 为 所 用 内 容 支付 费用 。 关 于 Amazon EBS 价格 机 制 ， 读 者 可 访问 https://aws.amazon. 
com/ebs/ 以 了解 更 多 内 容 (参见 Amazon EBS 页 面 中 的 Projecting costs 部 分 ) 。 

当 数 据 需要 快速 访问 且 长 期 持久 存储 时 ,建议 使 用 Amazon EBS. EBS 适用 于 以 下 应 
用 程序 的 主 存 储 : 作为 文件 系统 、 数 据 库 ， 或 者 需要 细 粒 度 更 新 和 访问 原始 、 未 格式 化 
的 块 级 存储 。Amazon EBS 非常 适合 于 依赖 于 随机 读 写 的 数据 库 应 用 程序 ， 以 及 通过 密集 
型 应 用 程序 执行 长 期 、 连 续 的 读 写 操作 。 

2. Amazon EC2 实例 存储 

实例 存储 可 为 实例 提供 临时 块 级 存储 。 该 存储 位 于 物理 连接 至 主机 的 磁盘 上 。 实 例 
存储 适用 于 数据 的 临时 存储 ， 例 如 频繁 更 改 的 信息 《如 缓冲 区 、 缓 存 、 暂 存 数据 和 其 他 
临时 内 容 ) ， 或 实例 〈 如 负载 平衡 的 Web 服务 器 池 ) 间 的 复制 数据 。 

实例 存储 由 作为 块 设备 而 公开 的 一 个 或 多 个 实例 存储 卷 组 成 。 实 例 存储 的 大 小 以 及 
可 用 设备 的 数量 因 实例 类 型 而 异 。 虽 然 实例 存储 用 于 特定 的 实例 ， 但 是 磁盘 子 系统 可 在 
主机 上 的 实例 之 间 实 现 共享 。 


12[.3 AWS Lambda 


AWS Lambda 是 一 种 计算 服务 ， 并 可 在 不 提供 服务 器 或 缺少 服务 器 管理 机 制 的 情况 
下 运行 代码 。 仅 在 需要 时 ，AWS Lambda 才 会 执行 代码 并 且 会 自动 扩展 一 一 从 每 天 几 个 
请 求 扩展 到 每 秒 数 千 个 请 求 。 用 户 只 需要 支付 所 消耗 的 计算 时 间 即 可 。 当 代码 未 处 于 运 
行 状 态 时 则 是 不 收费 的 。 当 使 用 AWS Lambda 时 ， 几 乎 可 以 为 任何 类 型 的 应 用 程序 或 后 
端 服务 运行 代码 ， 且 无 须 对 此 进行 管理 。AWS Lambda 在 高 可 用 性 计算 基础 设施 上 运行 
代码 ， 并 执行 所 有 计算 资源 的 管理 ， 包 括 服务 器 和 操作 系统 维护 、 容 量 供应 、 自 动 伸缩 、 
代码 监视 和 日 志 记录 。 用 户 的 工作 则 是 采用 AWS Lambda 支持 的 语言 之 一 编写 代码 ( 例 
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如 Node.js、Java、C#、Go 和 Python) 。 

我 们 可 以 使 用 AWS Lambda 运行 代码 以 响应 事件 ,例如 Amazon S3 存储 桶 或 Amazon 
DynamoDB 表 中 的 数据 更 改 ; 使用 Amazon API 网 关 运 行 响应 HTTP 请 求 的 代码 ; 或 者 使 
用 AWS SDK 和 API 调用 代码 。 根据 这 些 功能 , 我们 可 使 用 Lambda 针对 AWS 服务 〈 例 
如 Amazon S3 和 Amazon DynamoDB) 轻松 地 构建 数据 处 理 触 发 器 ， 进 而 处 理 Kinesis 中 的 
数据 流 ; 或 者 创建 AWS 级 别 的 后 端 操作 程序 ， 以 围绕 当前 系统 提供 较 好 的 性 能 和 安全 措施 。 

此 外 ， 还 可 以 构建 由 事件 触发 的 函数 组 成 的 无 服务 器 应 用 程序 ， 并 使 用 AWS 
CodePipeline 和 AWS CodeBuild 对 其 进行 自动 部 署 。 

此 外 ， 还 可 以 构建 由 事件 触发 的 函数 组 成 的 无 服务 器 应 用 程序 ， 并 使 用 AWS 
CodePipeline 和 AWS CodeBuild 自动 部 署 它们 。 对 此 , 读者 可 访问 https://docs.aws.amazon.com/ 
lambda/latest/dg/deploying-lambda-apps.html 以 了 解 更 多 内 容 。 

AWS Lambda 是 许多 应 用 程序 方案 的 理想 计算 平台 ， 前 提 是 可 以 使 用 AWS Lambda 
所 支持 的 语言 编写 应 用 程序 代码 ， 例 如 Node.js、Java、Go、C# 和 Python， 并 可 在 AWS 
Lambda 标准 运行 期 环境 和 Lambda 提供 的 资源 中 运行 。 


12.4 Amazon S3 简介 


Amazon S3 运行 于 世界 上 最 大 的 全 球 云 基础 设施 上 ， 其 耐久 性 高 达 99.99999999999%。 
其 中 , 数据 自动 分 布 在 至 少 3 个 物理 设施 之 间 , 这 些 物 理 设 施 在 地 理 上 散布 于 AWS 区 域 
Al, Amazon S3 还 可 以 自动 将 数据 复制 到 任何 其 他 AWS 区 域 。 

关于 AWS 全 球 云 基 础 设施 ， 读 者 可 访问 https://aws.amazon.com/ 以 了 解 更 多 内 容 。 


12.4.1 Amazon S3 功能 


Amazon S3 可 视 为 一 类 互联 网 存储 。 用户 可 以 使 用 Amazon S3 在 任何 时 候 从 Web 上 
的 任何 地 方 存储 和 检索 任意 数量 的 数据 。 此 外 ， 还 可 以 使 用 AWS Management Console 
来 完成 这 些 任 务 ， 这 是 一 个 简单 、 直 观 的 Web 界面 。 本 节 主 要 介绍 Amazon S3 以 及 如 何 
使用 AWS Management Console 管理 Amazon S3 提供 的 存储 空间 。 

时 至 今日 , 公司 应 具备 能 够 轻松 安全 地 收集 、 存储 和 大 规模 分 析 数 据 的 能 力 。 Amazon 
S3 是 一 种 对 象 存储 ， 用 于 存储 和 检索 来 自任 何 地 方 的 数据 一 一 网 站 和 移动 应 用 程序 、 企 
业 应 用 程序 ， 以 及 来 自 物 联网 传感器 或 设备 的 数据 ， 并 存储 各 个 行业 使 用 的 、 数 以 百 万 
计 的 应 用 程序 数据 。Amazon S3 提供 了 全 面 的 安全 性 和 协 从 能 力 ， 甚 至 可 以 满足 最 严格 
的 法 规 要 求 。 它 使 客户 能 够 灵活 地 管理 数据 ， 以 实现 成 本 优化 、 访 问 控制 和 协 从 性 等 功 
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能 。 同 时 ，Amazon S3 还 提供 了 就 地 查询 功能 ， 并 可 直接 在 Amazon S3 中 对 数据 进行 强 
大 的 分 析 。Amazon S3 是 目前 受到 广泛 支持 的 存储 平台 ， 拥 有 ISV 解决 方案 和 系统 集成 
商 合作 伙伴 的 最 大 生态 系统 。 


12.4.2 全面 的 安全 和 协 从 能 力 


Amazon S3 是 唯一 支持 3 种 不 同 加 密 形式 的 云 存 储 平台 ， 同 时 S3 提供 了 与 AWS 
CloudTrail 之 间 的 集成 , 并 针对 审计 机 制 记录 、 监视 和 保留 存储 API 的 调用 活动 。 Amazon 
S3 是 Amazon Macie 的 唯一 云 存 储 平台 ， 并 通过 机 器 学 习 自 动 发 现 、 分 类 和 保护 AWS 中 
的 敏感 数据 。Amazon S3 支持 安全 标准 和 合格 认证 ， 包 括 PCI-DSS. HIPAA/HITECH, 
FedRAMP、EU Data Protection Directive 和 FISMA， 以 帮助 全 球 监管 机 构 符合 协 从 要 求 。 

关于 安全 性 和 协 从 性 问题 , 读者 可 访问 https://aws.amazon.com/security/ 和 https://aws. 
amazon.com/compliance/ 以 了 解 更 多 信息 。 


12.4.3 ”就 地 查询 


Amazon S3 可 在 数据 上 运行 复杂 的 大 数据 分 析 ， 而 无 须 将 数据 移动 到 单独 的 分 析 系 
统 中 。 对 于 大 量 非 结 构 化 数据 ，Amazon Athena 向 SQL 人 员 提 供 了 按 需 查询 的 访问 能 力 。 
Amazon Redshift Spectrum 可 运行 跨越 数据 仓库 和 S3 的 查询 操作 。 目 前 , 仅 AWS 提供 了 
Amazon S3 Select 功能 〈 当 前 仅 用 于 测试 预览 ) ， 这 是 一 种 仅 从 S3 对 象 中 检索 所 需 数据 
子 集 的 方法 ， 进 而 提升 从 S3 访问 数据 的 应 用 程序 的 性 能 ， 最 高 可 达 40090. 

关于 就 地 查询 ， 读 者 可 访问 https://aws.amazon.com/blogs/aws/amazonredshift-spectrum- 
exabyte-scale-in-place-queries-of-s3-data/ 以 了 解 更 多 内 容 。 


12.4.4 灵活 的 管理 机 制 


Amazon S3 提供 了 最 灵活 的 存储 管理 和 管理 功能 。 存 储 管理 员 可 以 对 数据 的 应 用 趋 
势 执 行 分 类 、 报 告 和 可 视 化 操作 ， 以 降低 成 本 并 提高 服务 水 平 。 对 象 可 以 用 唯一 的 、 可 
定制 的 元 数据 进行 标记 ， 以 便 客户 可 以 分 别 查 看 和 控制 每 项 工作 负载 的 存储 消耗 、 成 本 
和 安全 性 等 特征 。 针 对 维护 、 协 从 性 和 分 析 操 作 方 面 的 问题 ，S3 可 提供 与 对 象 和 元 数据 
相关 的 进度 报告 。 除 此 之 外 ，S3 还 可 以 分 析 对 象 访问 模式 ， 以 构建 与 自动 化 分 层 、 删 除 
和 保留 相关 的 生命 周期 策略 。 由 于 Amazon S3 使 用 了 AWS Lambda， 因 而 客户 可 以 记录 
活动 、 定 义 警 报 和 调用 工作 流 ， 而 无 须 任何 额外 基础 设施 。 

关于 S3 存储 的 管理 机 制 ， 读 者 可 访问 https://aws.amazon.com/s3/ 以 了解 更 多 内 容 。 
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12.4.5 ”最 受 支持 的 平台 以 及 最 大 的 生态 系统 


除了 与 大 多 数 AWS 服务 集成 之 外 ，Amazon S3 生态 系统 还 包括 一 些 咨 询 系统 集成 商 
和 独立 软件 供应 商 合作 伙伴 ， 且 每 月 都 有 更 多 的 机 构 在 不 断 地 加 入 其 中 。AWS Marketplace 
提供 了 35 个 类 别 和 3500 多 个 软件 清单 ， 分 别 来 自 1100 多 个 ISV， 这 些 软件 都 是 预先 配 
置 完毕 并 部 署 在 AWS 云 上 的 。AWS Partner Network (APN) 合作 伙伴 已 经 调整 了 他 们 的 
服务 和 软件 策略 ， 并 朝向 与 S3 协同 工作 的 方向 迈进 ， 进 而 实现 备份 和 恢复 、 归 档 和 灾难 

关于 AWS 存储 合作 商 ， 读 者 可 访问 https://aws.amazon.com/backup-recovery/partner- 
solutions/ 以 了 解 更 多 信息 。 


1246 简单 、 方 便 的 数据 传输 机 制 


用 户 可 以 从 多 种 选项 中 选择 将 数据 传输 到 Amazon S3 中 ( 或 反 向 ) 。S3 简单 可 靠 的 
API 使 得 互联 网 数据 传输 变 得 很 容易 。 对 于 较 大 地 理 范围 的 数据 上 传 行为 ，Amazon S3 
Transfer Acceleration 可 视 为 一 种 较为 理想 的 解决 方案 。 对 于 采用 专用 的 网 络 连接 时 AWS 
间 大 量 的 数据 移动 行为 ，AWS 直 连 供应 商 提供 了 一 致 的 高 带宽 、 低 延迟 数据 传输 方案 。 
对 于 Pb 级 的 数据 传输 ， 可 使 用 AWS Snowball 和 AWS Snowball Edge 应 用 程序 ， 对 于 更 
大 的 数据 集 ， 则 可 尝试 使 用 AWS Snowmobile。AWS Storage Gateway 通过 物理 或 虚拟 数 
据 传 输 设备 ， 并 采用 本 地 方式 轻松 地 将 数据 卷 或 文件 移动 至 AWS 云 中 。 

关于 云 计算 迁移 ， 读 者 可 访问 https://aws.amazon.com/cloud-migration/ 以 了 解 更 多 内 容 。 


12.4.7 备份 和 恢复 


Amazon S3 为 关键 数据 的 备份 和 归档 提供 了 持久 、 可 扩展 和 安全 的 场所 。 用 户 可 以 使 
用 S3 的 版 本 控制 功能 来 保护 存储 的 数据 。 另 外 ， 还 可 定义 生命 周期 规则 ， 并 将 较 少 使 用 
的 数据 迁移 至 S3 Standard-Infrequent Access 中 ， 同 时 将 对 象 集 归 档 至 Amazon Glacier o 
关于 备份 和 归档 ， 读 者 可 访问 https://aws.amazon.com/backup-restore/ 以 了解 更 多 内 容 。 


1248 ”数据 存档 


Amazon S3 和 Amazon Glacier 提供 了 一 系列 的 存储 类 ， 以 满足 受 监管 行业 遵从 性 方 
面 的 存档 需求 ; 或 者 为 需要 快速 、 不 频繁 访问 存档 数据 的 组 织 提供 活动 存档 。Amazon 


・348・ Hadoop 大 数据 分 析 实 战 


Glacier Vault Lock 提供 了 “一 次 写 入 多 次 读 取 (WORM) ”的 存储 方案 ， 以 满足 记录 的 
保存 需求 。 生 命 周期 策略 简化 了 从 Amazon S3 到 Amazon Glacier 间 的 数据 转换 ， 并 帮助 
解决 了 基于 客户 定义 策略 的 转换 自动 化 问题 。 

关于 数据 存档 ， 读 者 可 访问 https://aws.amazon.com/archive/ 以 了解 更 多 内 容 。 


12.4.9 数据 湖 和 数据 分 析 


无 论 存 储 的 是 药品 还 是 金融 数据 ， 抑 或 是 照片 和 视频 等 多 媒体 文件 ，Amazon S3 都 
可 以 用 作 大 数据 分 析 的 数据 湖 。AWS 提供 了 全 面 的 服务 组 合 方案 ， 并 通过 降低 成 本 、 扩 
大 规模 、 提 升 创新 速度 等 方式 管理 的 数据 。 

关于 数据 湖 和 数据 分 析 ， 读 者 可 访问 https://aws.amazon.com/blogs/big-data/introducing- 
the-data-lake-solution-on-aws/ 以 了 解 更 多 内 容 。 


12.4.10 ”混合 云 存 储 


AWS 存储 网 关 可 帮助 用 户 构建 混合 云 存 储 ， 并 通过 Amazon S3 的 持久 性 和 规模 性 ， 
增强 现 有 的 本 地 存储 环境 。 据 此 ， 可 将 一 个 工作 负载 从 站 点 释放 到 云 中 进行 处 理 ， 然 后 
返回 最 终结 果 。 另 外 ， 将 主 存储 之 外 的 较 低 价值 的 数据 分 层 置 入 云 计算 中 ， 可 降低 成 本 
并 扩大 本 地 投资 。 或 者 ， 也 可 简单 地 将 数据 增 量 地 移 至 S3 中 ， 作 为 备份 或 迁移 项 目的 一 
部 分 内 容 。 

关于 混合 云 存 储 ， 读 者 可 访问 https://aws.amazon.com/enterprise/hybrid/ 以 了 解 更 多 内 容 。 


12.4.11 原生 云 应 用 程序 数据 


Amazon S3 提供 了 高 性 能 、 高 可 用 性 的 存储 方案 ， 使 其 易于 扩展 和 维护 具有 成 本 效 
益 的 、 运 行 较 快 的 移动 和 物 联网 应 用 程序 。 当 使 用 S3 时 ， 可 以 添加 任何 数量 的 内 容 ， 并 
从 任何 位 置 对 其 进行 访问 ， 这 样 就 可 以 更 快 地 部 署 应 用 程序 并 接触 到 更 多 客户 。 


124.12 ”灾难 恢复 


Amazon S3 的 全 球 安全 基础 设施 提供 了 健壮 的 灾难 恢复 解决 方案 ， 旨 在 提供 更 好 的 
数据 保护 机 制 。 跨 区 域 复制 (CRR) 将 每 个 S3 对 象 自动 复制 到 位 于 不 同 AWS 区 域 的 目 
标 桶 中 。 

关于 灾难 恢复 ， 读 者 可 访问 https://aws.amazon.com/disaster-recovery/ 以 了解 更 多 内 容 。 
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12.5 Amazon DynamoDB 


Amazon DynamoDB 是 一 个 经 全 面 管理 的 NoSQL 数据 库 服 务 ， 提 供 了 快速 、 可 预测 
的 性 能 和 无 颖 的 可 伸缩 性 。DynamoDB 减轻 了 操作 和 扩展 分 布 式 数据 库 的 管理 负担 ， 这 
样 ， 用 户 就 不 必 担 心 硬件 供应 、 设 置 和 配置 、 复 制 、 软 件 补丁 或 集群 扩展 等 方面 的 问题 。 
此 外 ，DynamoDB 还 提供 了 静态 加 密 ， 从 而 消除 了 保护 敏感 数据 所 涉及 的 操作 负担 和 复 
杂 性 。 读 者 可 访问 https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/ 
EncryptionAtRest. html 以 了 解 更 多 内 容 。 

当 使用 DynamoDB 时 ， 可 以 创建 存储 、 检 索 任意 数量 数据 的 数据 库 表 ， 并 服务 于 任 
何 级 别 的 请 求 流量 。 用 户 可 调整 表 的 吞吐 量 ， 且 不 会 导致 停机 或 性 能 下 降 等 问题 。 另 外 ， 
还 可 使 用 AWS Management Console 来 监视 资源 利用 率 和 性 能 指标 。 

Amazon DynamoDB 提供 了 按 需 备份 的 功能 ， 并 为 表 创 建 完整 的 备份 , 以便 长 期 保存 
和 存档 ， 进 而 满足 法 规 遵从 性 需求 。 

DynamoDB 可 从 表 中 自动 删除 过 期 项 ， 以 减少 存储 应 用 以 及 数据 的 存储 成 本 。 

DynamoDB 自动 将 表 数 据 和 流量 分 散 到 足够 多 的 服务 器 上 ， 以 处 理 吞 吐 量 和 存储 需 
求 , 同時 保持 一 致 和 快速 的 性 能 。 其 间 , 所 有 数据 都 存储 在 固态 磁盘 (ssd) 中 , 并 在 AWS 
区 域 的 多 个 可 用 区 中 自动 复制 ， 同 时 提供 内 置 的 高 可 用 性 和 数据 持久 性 。 最 后 ， 还 可 使 
用 全 局 表 以 保持 DynamoDB 表 在 AWS 区 域 之 间 的 同步 状态 。 


12.6 Amazon Kinesis Data Streams 


我 们 可 以 使 用 Amazon Kinesis Data Streams 并 以 实时 方式 收集 和 处 理 较 大 的 数据 流 。 
对 此 ， 将 创建 数据 处 理应 用 程序 称 作 Amazon Kinesis Data Streams 应 用 程序 。 典 型 的 
Amazon Kinesis Data Streams 将 作为 数据 记录 从 Kinesis 数据 流 中 读 取 数据 。 这 一 类 应 用 
程序 可 使 用 Kinesis Client Library 并 可 运行 于 Amazon EC2 实例 上 。 处 理 后 的 记录 将 被 发 
送 至 显示 输出 中 ， 用 于 生成 警告 信息 ， 或 者 动态 地 调整 价格 和 广告 策略 ;抑或 将 数据 发 
送 至 其 他 AWS 服务 中 。 

Kinesis Data Streams 连同 Amazon Kinesis Data Firehose 一 起 表示 为 Kinesis 流 数 据 平 
台中 的 部 分 内 容 。 

用 户 可 以 使 用 Kinesis Data Streams 快速 、 连 续 地 接收 和 聚合 数据 。 其 间 ， 使 用 的 数 
据 类 型 包括 IT 基础 设施 日 志 数 据 、 应 用 程序 日 志 、 社 交 媒 体 、 市 场 数据 提要 和 Web 点 击 
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流 数 据 。 由 于 数据 接收 和 处 理 的 响应 时 间 是 实时 的 ， 因 此 处 理 过 程 通常 是 轻 量 级 的 。 
下面 考査 Kinesis Data Streams 典型 的 应 用 场景 。 


12.6.1 加 速 日 志和 数据 提要 的 输入 和 处 理 


生产 者 可 以 将 数据 直接 推送 到 数据 流 中 。 例 如 ， 推 送 系统 和 应 用 程序 日 志 可 以 在 几 
秒 钟 内 进行 处 理 。 这 可 以 防止 前 端 或 应 用 服务 器 出 现 故障 时 日 志 数 据 丢 失 。Kinesis 数据 
流 提 供 了 加 速 的 数据 输入 ， 因 为 在 提交 数据 之 前 ， 一 般 不 会 在 服务 器 上 批量 处 理 数据 。 


126.2 ”实时 度量 和 报告 机 制 


对 于 简单 的 数据 分 析 和 实时 报告 , 可 将 所 采集 的 数据 应 用 于 Kinesis Data Streams 中 。 
例如 ， 数 据 处 理应 用 程序 可 以 在 数据 流 进 入 时 处 理 系统 和 应 用 程序 日 志 的 度量 和 报告 ， 
而 不 是 等 待 接收 批量 数据 。 


12.6.8 ”实时 数据 分 析 


实时 数据 分 析 将 并 行 处 理 和 实时 数据 结合 在 一 起 。 例 如 ， 可 通过 实时 方式 处 理 网 站 
的 点 击 流 , 随后 利用 多 个 并 行 运行 的 Kinesis Data Streams 应 用 程序 分 析 该 网 站 的 可 用 性 。 


12.6.4 ”复杂 的 数据 流 处 理 


对 此 , 可 创建 Amazon Kinesis Data Streams 应 用 程序 和 数据 流 的 有 限 无 环 图 (DAG ) 。 
这 通常 会 将 来 自 多 个 Amazon Kinesis Data Streams 应 用 程序 的 数据 置 入 另 一 个 流 中 , 以 便 
由 不 同 的 Amazon Kinesis Data Streams 应 用 程序 进行 下 游 处 理 。 


12.6.5 Kinesis Data Streams 的 优点 


当 使 用 Kinesis Data Streams 解决 各 类 流 数据 问题 时 ， 一 种 常见 的 应 用 是 数据 的 实时 
聚合 ， 随 后 将 该 数据 加 载 至 数据 仓库 或 MapReduce 集群 中 。 

考虑 到 持久 性 和 弹性 等 问题 ， 数 据 将 被 置 于 Kinesis 数据 流 中 。 对 于 记录 置 于 数据 流 
及 其 检索 〈 即 置 入 -获取 ) 时 间 ， 二 者 间 相 差 小 于 1 秒 ; 在 数据 被 加 入 后 ，Amazon Kinesis 
Data Streams 应 用 程序 几乎 可 即刻 使 用 数据 流 中 的 数据 。Kinesis Data Streams 在 管理 服务 
方面 可 减轻 创建 、 运 行 数 据 接收 管道 过 程 中 的 一 些 操作 负担 。 相 应 地 ， 用 户 可 创建 流 式 
MapReduce 类 型 的 应 用 程序 ， 而 Kinesis Data Streams 的 弹性 特征 也 使 得 我 们 可 以 在 上 、 
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下 两 个 方向 上 “缩放 ”数据 流 。 据 此 ， 数 据 记 录 在 过 期 之 前 将 不 会 再 丢失 。 

多 个 Amazon Kinesis Data Streams 应 用 程序 可 以 使 用 来 自流 的 数据 。 因此， 多 个 操作 
(如 归档 和 处 理 ) 可 以 并 发 且 独 立地 进行 。 例 如 ， 两 个 应 用 程序 可 以 从 同一 个 数据 流 读 
取 数 据 。 其 中 ， 第 一 个 应 用 程序 计算 处 于 运行 状态 的 聚合 操作 ， 并 更 新 DynamoDB 表 ; 
第 二 个 应 用 程序 将 数据 压缩 和 归档 至 数据 存储 ， 例 如 Amazon S3。 随 后 ， 针 对 最 新 的 报 
告 内 容 ， 包 含 处 于 运行 状态 下 的 聚合 结果 的 DynamoDB 表 将 被 显示 输出 所 读 取 。 


12.7 AWS Glue 


AWS Glue 是 一 个 完全 托管 的 析 取 、 转 换 和 加 载 (ETL) 服务 ， 并 采用 相对 简单 、 经 
济 的 方式 对 数据 进行 分 类 、 清 洗 和 充实 ， 进 而 可 在 各 种 数据 存储 之 间 安 全 地 移动 数据 。 
AWS Glue 由 一 个 名 为 AWS Glue Data Catalog 的 中 央 数 据 存储 库 、 一 个 自动 生成 Python 
代码 的 ETL 引擎 ， 以 及 一 个 灵活 的 调度 器 〈 用 于 处 理 依赖 项 解析 、 作 业 监 视 和 故障 时 作 
业 的 重 试 ) 组 成 。 AWS Glue 是 无 服务 器 的 ， 所 以 不 需要 设置 或 管理 基础 架构 。 

用 户 可 以 使 用 AWS Glue 控制 台 获取 数据 、 转 换 数据 ， 并 使 其 可 用 于 搜索 和 查询 操 
作 。 控 制 台 调用 底层 服务 来 编排 转换 数据 所 需 的 各 项 工作 。 除 此 之 外 ， 还 可 以 使 用 AWS 
Glue API 操作 与 AWS Glue 服务 接口 ， 并 利用 熟悉 的 开发 环境 编辑 、 调 试 和 测试 Python 
或 Scala Apache Spark ETL 代码 。 

我 们 可 以 使 用 AWS Glue 构建 数据 仓库 ， 进 而 组 织 、 清 理 、 验 证 和 格式 化 数据 。 同 
时 ， 还 可 将 AWS 云 数据 转换 并 移 至 数据 存储 中 。 另 外 ， 还 可 将 源 自 不 同 数据 源 的 数据 加 
载 到 数据 仓库 中 ， 以 便 进行 定期 报告 和 分 析 。 通 过 将 数据 存储 在 数据 仓库 中 ， 可 以 集成 
来 自 业 务 不 同 部 分 的 信息 ， 并 提供 用 于 决策 的 公共 数据 源 。 

当 构 建 数 据 仓 库 时 ，AWS Glue 可 简化 诸多 操作 任务 ， 具 体 如 下 : 
获取 并 将 与 数据 存储 相关 的 元 数据 编目 到 中 心目 录 中 。 
可 以 处 理 半 结构 化 数据 ， 例 如 点 击 流 或 处 理 日 志 。 
使 用 调度 疏 虫 程序 的 表 定 义 填充 AWS Glue Data Catalog. 
疏 虫 程序 调用 分 类 器 逻辑 推断 数据 的 模式 、 格 式 和 数据 类 型 。 这 些 元 数据 存储 
为 AWS Glue Data Catalog 中 的 表 ， 并 在 ETL 作业 的 编写 过 程 中 使 用 。 
O 生成 ETL 脚本 ， 并 在 源 和 目标 之 间 转 换 、 扁 平 化 、 丰 富 数据 内 容 。 
口 检测 模式 变化 ， 并 根据 首选 项 进行 调整 。 
O ”根据 调度 或 事件 触发 ETL 作业 ， 并 可 自动 初始 化 作业 ， 将 数据 转移 到 数据 仓库 

中 。 触 发 器 可 用 于 在 作业 之 间 创 建 依赖 流 。 
Q ”收集 运行 期 度量 结果 以 监视 数据 仓库 的 活动 。 
口 ” 处 理 错 误 并 自动 执行 重 试 操作 。 


Oooo 
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Q 根据 需要 扩展 资源 并 运行 各 项 作业 。 

在 对 Amazon S3 数据 湖 执行 无 服务 器 查询 时 ， 可 以 使 用 AWS Glue。AWS Glue 可 以 
对 Amazon S3 数据 进行 编目 , 以 便利 用 Amazon Athena 和 Amazon Redshift Spectrum 进行 
查询 。 通 过 怜 虫 ， 元 数据 与 底层 数据 保持 同步 。 通 过 AWS Glue Data Catalog. Athena 和 
Redshift Spectrum 可 直接 查询 Amazon S3 数据 湖 。 当 采用 AWS Glue 时 , 可 通过 一 个 统一 
的 接口 访问 和 分 析 数 据 ， 而 无 须 将 其 加 载 至 多 个 数据 存储 中 。 

利用 AWS Glue， 可 创建 事件 驱动 的 ETL 管道 。 在 Amazon S3 中 ， 只 要 有 新 的 数据 

J 用 ， 即 可 从 AWS Lambda 函数 中 调用 AWS Glue ETL 作业 来 运行 ETL 作业 。 此 外 ， 还 
J 将 这 个 新 数据 集注 册 到 AWS Glue Data Catalog 中 ， 并 作为 ETL 作业 的 一 部 分 内 容 。 
用 户 可 使 用 AWS Glue 进一步 理解 数据 集 。 除 此 之 外 ,还 可 以 使 用 各 种 AWS 服务 存 
储 数据 ， 同 时 仍然 使 用 AWS Glue Data Catalog 维护 数据 的 统一 视图 。 查 看 Data Catalog 
可 快速 搜索 和 发 现 所 持 有 的 数据 集 ， 并 在 一 个 中 央 存 储 库 中 维护 相关 的 元 数据 。 另 外 ， 
Data Catalog 还 可 以 作为 外 部 Apache Hive Metastore 的 替 代 方 案 。 


n| n| 


n 


12.8 Amazon EMR 


Amazon EMR 是 一 个 托管 集群 平台 ， 它 简化 了 AWS 上 的 Apache Hadoop 和 Apache 
Spark 等 大 数据 框架 的 运行 过 程 ， 进 而 对 大 数据 进行 处 理 和 分 析 。 通 过 使 用 这 些 框架 和 相 
关 的 开源 项 目 (例如 Apache Hive 和 Apache Pig) ， 可 针对 分 析 功 能 和 业务 智能 工作 负载 
处 理 数 据 。 此 外 ， 还 可 以 使 用 Amazon EMR 在 其 他 AWS 数据 存储 和 数据 库 〈 如 Amazon 
S3 和 Amazon DynamoDB) 间 转 换 和 移动 大 量 数据 。 

Amazon EMR 提供 了 一 个 托管 的 Hadoop 框架 ， 该 框架 简单 、 快 速 且 具有 成 本 效益 ， 
以 便 在 动态 可 伸缩 的 Amazon EC2 实例 间 处 理 大 量 的 数据 。 此外, 还 可 以 在 Amazon EMR 
中 运行 其 他 流行 的 分 布 式 框架 , 如 Apache Spark、HBase、Presto 和 Flink, 并 与 Amazon S3 
和 Amazon DynamoDB 等 其 他 AWS 数据 存储 中 的 数据 进行 交互 。 

Amazon EMR 可 安全 、 可 靠 地 处 理 大 量 的 大 数据 用 例 ， 包 括 日 志 分 析 、Web 索引 、 
数据 转换 (ETL) 、 机 器 学 习 、 财 务 分 析 、 科 学 模拟 和 生物 信息 学 。 

当 读 者 尝试 对 此 进行 操作 时 ， 需 要 访问 aws.amazon.com 并 创建 一 个 AWS 账号 。 


Oss: 
创建 和 使 用 EMR 集群 需要 支付 一 定 的 费用 ( 通常 是 每 天 10 美元 ) 。 当 任务 结束 时 ， 应 
终止 集群 的 工作 状态 。 


登录 后 ， 将 会 看 到 如 图 12.3 所 示 的 画面 。 
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图 12.3 
当选 择 EMR 作为 服务 时 ， 对 应 结果 如 图 12.4 所 示 。 


Services ~ Resource Groupe > 全 


Amazon EMR 4 " 
Welcome to Amazon Elastic MapReduce Additional Information 
More about Bastic MapReduce 


|| Customs 
Amazon Elastic MapReduce (Amazon EMR) is a web service that enables businesses, researchers, data 


Security configurations 
analysts, and developers to easily and cost-ettectivaly process vast amounts of data. 


VPC subnata 
lelp Using Elastic MapReduce 


You do not appear to have any clusters. Create one now. 


How Elastic MapReduce Works 


ontor the heath 


Upload your data and processing qure and c E yeah and progress of 
application to $3. s ^s. out your cluster. Retrieve tho output in S3 


图 12.4 


通过 如 图 12.5 所 示 的 各 种 选项 ， 即 可 创建 一 个 EMR 集群 。 
一 组 键 对 对 于 EMR 来 说 不 可 或 缺 。 对 此 ， 可 打开 一 个 新 的 选项 卡 ， 间 


制 台中 的 EC2 服务 ， 如 图 12.6 所 示 。 


访问 AWS 控 
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ONS Goto advanced options 
General Configuration 


Cluster name wy caster 
v^ Legging © 
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28.3, Hvo 23.2, Hue 4.1.0, Phonix 4.13.0, and 
Zookeeper 34.10 


Presto: Presto 0.194 with Hadoop 2.8.3 HDFS and 
Hive 2:32 Metastore 


Spark: Spark 2.3.0 on Hadoop 2.8.3 YARN with 
Ganglia 3.72 and Zeppelin 0.7.3 


Use AWS Glue Data Catalog for table metadata — © 


Hardware configuration 
Instance type 


Number of instances 


Security and access 
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图 12.6 


图 12.7 显示 了 当前 的 EC2。 
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EMR- ANS Coran 


aws Services ~ Resource Groups ~ 入 
EC2 Dashboard Resources 


Events 
You are using the following Amazon EC2 resources in the US East (N. Virginia) region 
Tags 
0 Running Instances 


0 Dedicated Hosts 


Reports 


Units 


Instances 
Launch Templates 
Spot Requests 
i ia Leam more about the latest in AWS Compute from AWS re-invent 2017 by viewing the EC2 Videos 
Dedicated Hosts 

‘Scheduled Instances Create Instance 


To start using Amazon EC2 you wili want to launch a virtual server, known as an Amazon EC2 instance. 


Volumes 


‘Snapshots Service Health C Scheduled Events 


Service Status: US East (N. Virginia) 
Security Groups o US East (N. Virginia): No events 
Eastc Ps This service is operating normaly 


Placement Groups ‘Availabilty Zone Status: 


Koy Pairs o mee 
Network Interfaces Availability zone is operating normally 
o us-cast-tb: 
Loed Balancers Availabilty zone is operating normally 
Target Groups っ useasti: 

Availabilty zone is operating normally 


图 12.7 
通过 选取 左 侧面 板 中 的 Key Pairs, 即 可 在 EC2 中 生成 新 的 键 对 ， 如 图 12.8 所 示 。 


g Torso ans amaron con 


EC? Management Console 


You do not have any Key Pairs in this region. 
umts 
Click the “Create Koy Pair button to create your fret Key Pai. 


Instances. | Create Key pair | 
Launch Templates 

Spot Requests 

Reserved instances, 

Dedicated Hosts 


Scheduled Instances 


AM 


Bundle Tasks 


Volumes 


Snapshots 


Security Groups. 


Elastic Ps 


Placement Groups 


键 对 的 命名 方式 如 图 12.9 所 示 。 


*356* Hadoop 大 数据 分 析 实战 


图 12.9 


O 注意， 


确保 复制 当前 键 对 ， 后 续 过 程 中 将 无 法 再 次 执行 这 一 操作 。 
12.10 显示 了 当前 的 键 对 ， 可 对 其 加 以 保存 以 供 后 续 操作 使 用 。 
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接 下 来 ， 可 利用 刚 生 成 的 键 对 执行 进一步 操作 ， 如 图 12.11 所 示 。 


ーー 


Launch mode e Custer © 


Software configuration 


Hardware configuration 


Security and access 
Eca ney TE O 一 


C2 instance profile tun ec2 Demos © 


图 12.11 
一 旦 选择 了 键 对 后 ， 即 可 创建 一 个 集群 ， 如 图 12.12 所 示 。 


Hardware configuration 
Instance ype eiue 


Security and access 
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O 注意 : 
EMR 集群 的 创建 过 程 大 约 需要 10 分 钟 
EMR 的 构建 过 程 如 图 12.13 所 示 。 


Launch mode @ Custer © 


Software configuration 
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Applications. 


Hardware configuration 
Instance ype eiie 


Number ot instances 3 


Security and access 


C2 key pair 


图 12.13 
图 12.14 显示 了 Summary 选项 卡 ， 其 中 包含 了 当前 集群 的 细节 信息 。 


Terminate aw CL epot 


Cluster My cluster 
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图 12.14 
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图 12.15 显示 了 Hardware 选项 卡 ， 其 中 包含 了 集群 的 硬件 信息 。 


Clone Terminate AWS CLI export 


Cluster: My cluster Waiting Cister ready after iast step competed. 


—o TERMES T 
2 instance groups (all loaded) © 
SSS ree 
CORE m3.xlarge 
se 
ont peras 
= 


m3.targe 
> GDEJ243TILBCK Running Master Instance 8 VCore, 15 GiB memory, 80 SSD GB storage 
Group EBS Storage: none 


图 12.15 
图 12.16 显示 了 Events 选项 卡 ， 其 中 包含 了 集群 的 事件 。 


Cione | Terminate AWS CUI export 
Cluster: My cluster Waiting Custer ready ater last stp completed. 
‘Summary Application history Monitoring Hardware Events Stepe Configurations Bootstrap actions 


Time Event description Source 10 Event type Severity Full date & time 


Apri 21, 2018 at 


: Amazon EMR cluster |-2VGNZ5HWCBXMB (My cluster) > rd Coates 
‘Apr 21 09:03 PM  FANGNZSHWCBXMB. Custer State Change INFO CHA PM T 


fished running ali pending staps at 2018-04-22 01:02 UTC. 


Step s-IKIUFS2BBOYQU (Setup hadoop debugging) in 
Apri 21, 2018 at 


Mete eM n at 2018-08 Step State Change — INFO 
started running at 2018-04-22 01:02 UTC and took 0 minutes. 09:03:38 PM (UT 
to complete. 


Apri 21, 2018 at 


Amazon EMR cluster -2VONZSHWCBXMB (My cluster) a 
avGNzskwcexMe (Custer State Change INFO KAMA 


A0/2109929M began runing steps at 2018-04-22 01:01 UTC. 

Stop s- IK.UFS2BBQYQU (Setup hadoop debugging) n Apri 21, 2018 at 

Apr 21 09:02 PM Amazon EMR cluster |-2VGNZSHWCBXM6 (My cluster) sr1KF52B8OYOU Stop State Change — INFO EUR 
started running at 2018-04-22 01:02 UTC. 


Apri 21, 2018 at 
(08:47:27 PM (UT 


Amazon EMR custer |-2VGNZ5HWCEXM6 (My Custer was 
requested at 2018-04-22 00:47 UTC and is being created. 


‘Apr 21 08:47 PM jevGNZ5HWCBXM6 Custer State Change INFO 


图 12.16 


考虑 到 安全 设置 ， 目 前 用 户 尚 无 法 访问 EMR 集群 。 因 此 ， 需 要 开启 相关 端口 ， 进 而 
可 从 外 部 进行 访问 。 随 后 ， 可 查看 EMR 集群 的 HDFS 和 YARN 服务 。 
O 注意 : 

在 实际 操作 过 程 中 ， 不 应 使 用 这 一 类 不 安全 的 EMR 集群 ， 此 类 操作 仅 供 理解 EMR 
所 用 。 


图 12.17 显示 了 当前 集群 的 Security Groups (位 于 EC2 Dashboard 中 ) 。 

编辑 这 两 个 安全 组 ， 并 人 允许 来 自 源 0.0.0.0/0 的 所 有 TCP 通信 ， 如 图 12.18 所 示 。 

下面 考査 EMR Master IP 地 址 (AF) , 即 http:/EMR MASTER IP:8088/cluster, Jf 
以 此 访问 YARN 服务 。 

图 12.19 显示 了 资源 管理 器 。 
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图 12.20 显示 了 资源 管理 器 队列 。 
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图 12.20 


HDFS 也 可 通过 相同 的 IP 地 址 予以 访问 ， 即 http://<EMR-MASTER-IP>:50070。 
图 12.21 显示 了 HDFS 入 口 界面 。 
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图 12.22 显示 了 EMR 集群 中 的 数据 节点 。 
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图 12.22 
图 12.23 显示 了 HDFS 浏览 器 ， 其 中 包含 了 文件 系统 中 的 目录 和 文件 。 
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至 此 ， 我 们 已 经 演示 了 如 何在 AWS 中 构建 EMR 集群 。 
O 注意 : 
此 时 ， 应 确保 结束 EMR 集群 的 工作 状态 
129 本 章 小 结 


针对 云 计算 需求 ， 本 章 主 要 讨论 了 与 AWS 云 计 算 供应 商 相关 的 内 容 。 


